はじめに
これは第21回情報論的学習理論 (IBIS) ワークショップ,通称IBIS2018の参加記録です.
あとで成型するかもしれませんが,取り急ぎ聴講メモを公開します.
これはカイヤンが感じとったメモであるため,大いに間違っている可能性があります.
1日目
オープニング
理論計算機科学では流派が大事にされるが機械学習はいろんな流派が共存している……いやそれらが同化するように:新たな価値を作るように目指しているのではないか
ディスカッションが50も増えた
企画セッション 離散構造処理
招待講演1 離散構造処理系:その概要と最近の研究状況について
DD:DecisionDiagram 論理や集合の表現と演算ができる
離散構造ってそもそもなんだ? 集合や論理やグラフから確率にいたるまで,離散数学及び計算機科学の基礎をなす数学的な構造である.およそあらゆる計算機が扱うあらゆる問題はこれになる. 計算機応用すべての基礎.
工学的応用としては,この離散構造を処理する処理系を考える. 処理速度の改善などで実応用が増えて幸せ.
BDD:二分決定グラフ.論理関数という最も基本的な離散構造モデルの処理技法 N変数あると真偽は[tex: 2N]通りという指数爆発する場合の数. 実際にはいろいろな条件でもっと簡単になる. それを処理するのがBDDである.グラフの簡約などをしていくと, 一意な規約BDDが得られる.すごい.数学としても楽しい.
圧縮効果は指数的だが,ナイーブにやると圧縮時間が指数的で意味がない.Applyというアルゴリズムが得られてから広まる.Applyは画期的.すごい.圧縮したままで論理的に意味のある演算を行うことで,データ量にほぼ比例するオーダーに抑えた.すごい. 2つの圧縮BDDの間の二幸論理演算を繰り返すと,圧縮したまま任意のBDDを構成できる!
BDDは応用として,LSIの設計をやりやすくするのに作られた. BDDは抽象的故購買解析やらいろいろ使える. これは,真偽表により(お客さんの買い物などの)組合せ集合を扱えるからである.組合せ集合と論理関数の演算は対応関係があるということ.
ZDD:ゼロ抑制BDDという新たなDD.湊先生のお仕事. 組み合わせを扱うのに都合がよい.空集合へ繋ぐというのを見つけて削除する簡約をする.ゆえにゼロサプレス. それこそ,商品のアイテム数に比べて1顧客の購入っ点数は極めて少ないという状況など,出現頻度が低いものが多いと,空集合へ繋がれることが増えて読み飛ばしが増える→数十倍から百倍の高速化. 01が非対称なときはZDDを使うと幸せ.
密な組み合わせ集合だとBDDのほうが簡単(圧縮される)です.
BDD vs ZDDは性能差はたかだかN倍.Nが大きくて疎だとZDDはすんごく強い.
ZDDの代数系は集合演算が組合せ集合特有の演算があったりBDD時代から基本演算があった.クヌース先生はその演算代数にも興味があったようで,集合族の演算だからということでfamily alg,と再命名.
DNF:非冗長積和形.冗長な変数や積が存在しない.最小とは限らないがよい極小.
頻出レコードの検出は組合せ集合を扱うためZDDが役に立つ.これはよく売れる商品の組合せを探索し,マーケティングに役立てられる.
LCMという線型時間なやつがあったが,メモリ上に圧縮したZDDを使ってそのポインタを返すようにすると線型時間そのものが爆発してもやりやすい.LCM-ZDDという新手法を湊先生が考えた.
組合せ集合の演算を扱うと,パタンも見えてくる.積集合から昨日今日売れたものがわかり差集合により昨日今日の違いも見える.これまでは爆発的な数をそのまま扱えなかったため,非常に頻出していたレコードをたたけるくらい(数十億を数百まで簡約)やらないといけないが,より少ないものから見えるパターンも見えるようになった.
基本演算を応用すると,πDDという順列表現もできる.
BDDの冬があった,2000年から2010年くらい. LSIの分野ではやることがなくなった.その後は他分野への応用. →応用のため(必要に迫られて)につくった技術が本質をついていたので応用範囲が広がったという例
ERATOプロジェクト.組合せお姉さんの人.理論と方法の人が出会える場所,方法の人が下りてきて同じ抽象化になることを見れる場所=ART
全探索が2000那由他な電力網のスイッチ制御にZDDを応用すると,データ量にしてCDROM1枚程度に抑えて世界で初めて解いた.その後,避難所割り当て建物のリソースや選挙区割りなどいろいろ使える.
最近の応用先としてデータ系はどうか? ホットスポット例題(乳児突然死亡率)の連結ブロック数え上げをZDDで初めて解いた.ホットスポットは尤度比の大きさで定義されるが,ある連結ブロックが本当にホットスポットかは検定などで確かめる. 連結ブロックはたくさんあるし,非連結までいれるとべき集合そのものになって全てを把握することは難しい.なので枝刈りしたいが使いたいスキャン統計量はちょっと複雑. これが最近できたことで,47都道府県を0.05秒でやったり100ブロックの例題も解けた(100ブロック規模を解いたのは初)
企画1-1 グラフ集合を圧縮して活用するためのデータ構造とアルゴリズム
……つまりZDDのテクニカルな話をひたすらします.
ZDDはルートと0終端と1終端を持つ. 各ノードはラベルと0枝と1枝を1つずつ持つ. ラベルiがjをさすならばi<jである.
ZDDは情報が指数的に圧縮されているため,それを演算することでいろいろとってきたり生成できる.一様ランダムサンプリングができるのも強み.
iからjへのパス=集合{i ,j } 全パスを見ると部分集合を数え上げることができる.ナイーブにやるとやばい.
クヌースのフロンティア法:幅優先に枝狩りをしていく.等価な子ノードに至ったら1つだけを考える.
ZDDはZDDを含みがち.集合演算と対応する.つまりグラフを変形すると集合演算や探索ができてしまうし,再帰構造を持っている.この再帰構造が協力で部分集合にだけ計算すればよいということがる. 例えば共通部分を計算するときはルート以外のところで共通部分をとれるようになるが,そのルートにつながっているノード以下のところでもまた再帰構造が使えてしまう.
要素の数え上げはルートから1終端までの経路の本数がルートの次から1終端までの,次の次から1終端までの……の本数の和になるため,線型時間で計算できる.
indexingして集合族の要素に
企画1-2 機械学習への応用
1つ目,重要文分抽出.ナップザックになる.文がたくさん与えられて長さと重要度が与えられている.要約を作りたいので短くかつ重要度を高くしたい(詰め込む).ただ木制約もあるのでつらい.ZDDを使うとそれぞれは楽.ZDDの集合演算を使うと両方の制約を使うことができる.
2つ目,影響最大化.影響拡散の最大化をする.影響というのはネットワークのやつで,最大化する頂点集合が欲しい. 今回は有向グラフを考える.情報伝搬確率と選びたい定数Kがgiven.貪欲法の評価にDDを使った.辺の数が大きくても木幅がある程度ならなんとかなる.
3つ目,敵対的組合せバンディット問題.理論研究は盛んだが実用的にはちょっと遅い.普通のバンディットはリグレット最小化するスロットマシンの選び方,というのが有名な問題.リグレットバウンド自体はよくされる.敵対的だと利得分布が時変する上に,過去にも依存する.組合せバンディットだと各時刻で複数のスロットをいじる(その集合をSとする).複数はべき集合全部が許されるとは限らない.
オンライン最短経路OSP問題は時変するし組合せをとってくることになる.敵対的組合せバンディットだった.
選べる組合せの集合Sはとても大きいのでこのサイズに比例すると悲しみ.リストじゃあかんのでZDDの形にしてしまおう,というのが提案手法.既存手法より指数的に早いかつリグレットは大差なく少ない.
4つ目,ネットワーク信頼性.エッジが欠けてもグラフは廉潔なままである確率(ネットワークのエッジが故障したときにどれだけ大丈夫か).
信頼性を計算するのも信頼性最大化するのもNPハード.信頼性計算自体は組合せをBDDで書き直すといける.しかし最大化は難しい.単調性を利用すると最良優先探索ができる.優先度が高いところから検索・展開していくと単調性のおかげで最適解がわかる.
信頼性計算をBDDでやるのはやられてる.指数個のBDDを作るわけにはいかないので,そこを頑張った.
午前の講義はスライド公開されている.
招待講演2
Kanade先生はロボットとか自動車系でAIの研究をしていた.自動運転車NAVLABの人.レベル4はなかなか難しい.運転席にはいざというときに備えた人が乗っているが,ビクビクしながらなせいでむしろ気疲れするw
もう一つインパクトのあった応用は愛ビジョン:空撮ショーみたいなのをスポーツでもやりたい.スタジオみたいに演技するわけではないし空間も違うので,カメラの自動制御を作った.
良い研究とは.アラン・ニューエル「実世界に応答し,差のあるもの」.差は今風に言えばインパクトである.一人でやれることは限界があるので,より多くの人が参加できることも肝要.
CVやVRの最初の研究の例(多数カメラ):今日では当たり前のようにできていること.しかし最初の研究は「こんな不必要な数のカメラを使う高価な道具は使われないだろう」とリジェクト.5台だったんだが.じゃあ1000台使ってやるとやっている.今480カメラ.3Dドームは同時にモーションを撮影できる(一瞬で数TBたまる).多数のカメラを使ってある種のブートストラップができている.
基礎的な課題も実践の上で困って考え出されたものである. インパクトは論文で考えることが多く読まれる必要がある.読まれない論文では,「そのアイデアがなければ解けない最も”簡単”な例が言えない」という特徴がある.もう1つは「問題ではなく先行研究からスタートする論文」.興味ある,ではなく,使わせてくれいくらだ,と言わせる論文を書こう.
差を生み出すシナリオを作る.0to1だけでなく1to10な研究でも(むしろそういうときには必要なら問題を変えてしまって)最初の問題に立ち返る.
2日目
企画セッション 学習理論
企画2-1 公平性の理論的課題
公平性が最近話題.どういう定義でどんな理論的課題があるのか.
公平性とは
学習結果が差別的なやつ.それはあかんでしょというやつ. 差別的っていうのは,ヨーロッパ系の名前を検索するとlocatedなど中立的な意味が出てくるが,アフリカ系だと逮捕されたとかの情報が上に出てくる.カイ二乗検定すると,アフリカ系かつネガティブな広告が優位に出ている(偶然ではない).
囚人の累犯リスクを計算するCOMPASアルゴリズムは,白人の偽陰性が高く黒人の偽陽性が高い(黒人はリスクを高く見積もられ白人は低く見積もられる),など.法的にも注意する必要があるとされている.
公平性の原因
データ収集から学習のなかでバイアスが乗る.
- データ収集については人手によるラベルには無意識でも思い込みが乗っているのではないか
- サンプリングバイアスも差別を生む可能性がある
- 学習については少数がノイズとみなされる
- 差別的な特徴量を使う
- 男女など直接的でなくても間接的に差別できちゃうやつとか
研究においては
- データと学習のバイアスがある仮定
- 学習のみにバイアスがある仮定
がある
公平性の定義:集団と個人
集団公平性と個人公平性が知られている.集団公平性は男性とか白人といった差別的になりうる属性に関するところ.個人公平性はセンシティブな属性以外が似ているなら出力も似ていてほしいという個別のデータに対する話.
公平性の定義とバイアスが乗る原因をあわせて4通りの場合がある.
設定
教師付き分類をしたい.入力とセンシティブ属性とラベルがあり,学習結果の予測ラベルがあてがわれる.
集団公平性
集団公平性をデータと学習のバイアスで考える場合は,センシティブ属性が与えられた時に予測ラベルがあてがわれる確率が等しくあってほしいという定義.
データが悪いのだから予測ラベルがラベルと異なっていてもよいというか異なってほしい.予測性能が犠牲になるのでうまくトレードオフを考えたい.
集団公平性のなかで,学習のみにバイアスがある場合.このときは真のラベルは差別的でないと考える.真のラベルが一緒でセンシティブ属性が異なるときの予測ラベルの確率が等しくなるようにする.
前者は逆差別が起きて後者はデータを信じれない場合がある.
集団公平性の理論的な課題
汎化公平性みたいなのが定義できて,そのバウンドを研究する.最適化アルゴリズムという観点では非凸に直面することがる.
個人公平性
この場合は,もう少しやりやすくいろいろやられている.
最近の研究
- 一部の問題では最適性が証明されている.
- 汎化性能の解析がされてきている
- 公平性定義の正当化がされている場合はあるが,まだまだ
企画2-2 非滑らかなPDF推定
データを生成するPDFを推定する.推測性能を知りたい.データを生成するものが非滑らかな場合の性能評価が可能になった.
- 密度関数はいろんな統計量や手法で使う
- 推定手法もいっぱいある
誤差評価のやり方として,何らかの推定手法の収束レートを解析する: $$| f_{true} - \hat{f}| = O(n^{-a})$$ とかをやる.$a$が大きいほど早い収束なので,良い推定がどれなのかがわかったりする.信頼区間や検定とかを作るのにも使える.
滑らかの仮定
昔から滑らかな密度関数の推定をする(カーネル法,ガウス家庭など)ときは,収束レートがよく知られている.カーネル法と同様の収束レートを与える方法としてガウス過程やヒストグラムなどいろいろあることも示されている.
実際の報告されるヒストグラムや密度関数を見ると,非滑らかなものは少なくない.蛍光灯のスペクトルはピークがギザギザしているし,何らかの閾値があるときにもこうなる.
微分を一切使わない収束評価は数学的に困難.何らかの構造を入れないと厳しい.
誤差の評価
推定量の誤差は近似誤差とモデル複雑性にわかれる.バイアスとバリアンスというか函数近似誤差と統計誤差.
滑らかだとテイラー展開などで多項式近似して誤差の変分を見ることがしやすいのだが,微分できないとこまる.
Szemeredinの分割理論を導入する.
準備と分割理論
- 等分割:連結とは限らない.3分割しても細かく分かれてるやつを3つに分類してそれぞれの長さが等しければいい,など.
d番目の区間の等分割を$P_d$とする.dについてのこれの直積を $$\mathcal{S}=P_1 \times \ldots \times P_d$$ とする.分割で仕切られた直方体たちはセルという.
等分割の上にステップ関数を作る.それぞれのセルの上で一定の値(ルベーグ測度で正規化)をとる函数を $$f_{\mathcal{S}}=f_S$$ とする.
Szemerediの結果として,このような$f_S$で近似したときの評価が得られている.f_Sは単関数近似ではないがあれとはまた別の離散近似である. この分割理論は離散数学の世界のもの.
最適なセルを使ったステップ関数=ヒストグラムなので,函数近似誤差はSzemerediの理論が,統計誤差はヒストグラム法に帰着することができた!
方法
では,この最適なセルS*をどう見つけるのだろうか? ランダムな分割で近似してみる.十分細かく分けてから等分割を作る.ランダムにとってきて頑張ると得られるようになる.交差検証誤差最小化を貪欲法で解く離散最適化になる.
提案手法1:M-SDE
- 実装がシンプルで理想的には収束レートを達成する
- 貪欲法ゆえ収束保証怪しく,計算コストも指数時間
なお,真の密度には有界のみを仮定する.
提案手法2:V-SDE
- 得たい等分割をぼろの意分割というもので近似する.
- アルゴリズムの結果が理論的に保証され,計算も早い
- 2次元の場合しかわかってないので今後もっと解明したい
収束レートがlogだが,これは推定する関数のクラスが広いためである.
企画2-3 連続最適化と定数時間アルゴ
定数時間:入力サイズに依存しない速さ.
入力がでかいと線型時間でもつらいことがある.
性質検査という問題について,満たす満たさないではなく満たすか満たすには程遠いかという風に問題を書き換えると,定数時間が作れる.
二部グラフかどうかを検査するときは,二部グラフかそれから遠いかを判定すると定数時間になる.
理論計算機科学は離散数学と密接で楽しいが,離散で有限なものばっかで悲しい.連続最適化をやってみるか.
2次関数の定数時間最適化
目的関数に出てくる行列をサンプリングして厳密に解く.大きさが一定値$k$の集合をサンプリングの添え字にするとよい.$k$は$n$に依存しない.
てきとーにサンプリングしてるだけだが理論保証を付けることができる.すごい.$n$に依存しなくても$k$が大きいと意味がないがそこは大丈夫そう.最適解を得るのは苦しいが最適値は得られる.
テンソル分解
タッカー分解:行列の特異値分解に近い.NP困難
コアテンソルと因子行列3つの積.3つのランクが出てくる.ランクごとにタッカー分解をして評価値を計算するのはしんどいので,残差だけ計算して素早くやりたい.サンプリングでたたく.
定数時間アルゴリズムはサンプリングして頑張るだけというのが多いが証明はめんdddっどくさい.ハイパーグラフに対する弱正則生補題を用いて示す.
今後
カーネル回帰やロジスティック回帰してみたい.
定数時間アルゴリズムと学習理論
どちらも巨大な入力の一部から全体を推測しようとしている. 詳細が微妙に異なっており,
- 目的関数 v.s. 確率分布
- クエリが投げられる v.s. サンプルが得られる
- 所望の誤差を達成するクエリ数 v.s. サンプルサイズに対応する誤差値
定数時間アルゴリズムが仮定しない条件が学習理論ではもうけられることがあるため,これらの除去が期待できる?
- iid
- 微分可能性
- など
招待講演3
確率的多腕バンディット.リグレット最小化する.ヘルスケアとか使える.
- 英語が聞き取れなかったりバンディットの理論に暗かったりで数式も追えずじまいでしたOTZ
3日目
企画セッション 計測インフォマティクス
化学で情報学はどこで使うか?
- 従来はいろんな分野ごと
- 統一的に使えるものはないか
実験や計測は化学でも共通したものであるため,情報計測プロジェクトなどが立ち上がり,情報科学や統計数理の方法論を計測や解析に融合していく.
ではデータからどうやって構造をとってくればいいだろうか? という話題になる.
実際的な進め方は,手を組めばいいってものではない. データ工藤化学には3つのレベルがある:
モデリングが一番壁になってくる.
- 自然科学の人がモデリングをすると確率統計素養がないことが多いため難しい.なんかできそうだけど定式化できない.
- 確率統計の人はドメイン知識が必要になり目的意識の共有が一朝一夕でできないことが難しい.
- モデリングを個別の分野でやっていくというのを分野ごとにいろいろできた結果を本セッションでは紹介する.
使っているモデリングやアルゴリズムは最先端のものとは限らない.ロジスティック回帰とLASSOをどう役立てたのかなぜそれがよいのかというのがキモ.
企画3-1 キャタリインフォマティクス
触媒化学へのインフォマティクスである. 大目標としてはすごい触媒で資源問題解決できないだろうかっていうものがあったりする.そのため,何か有用なものを得るための触媒を作りたい.今までは発見科学的にされてきた. * 類:マテリアルインフォマテイクス * 有機や無機といった識別ではないのが違い
発見科学的=めっちゃ大変.手作業による実験はもちろん勘や経験に基づく触媒設計をすることになり,実験時間は長いと数週間の世界.100個やるとか無理ゲー.うまく見つけても産業までもっていくには数十年の世界なこともある. これをもっと高速にサイクルを回したいので,情報科学で援助できないか.
いろんな人がやっているのでデータはある.が,エクセルですらなく手書きのノートにまとまっている.データ工藤なので何が必要かわからないのでいろいろな情報をまとめて整理した結果290のデータが集まった. しかしまだ均質化はされていない.使えそうなところを見ると14のデータが使えそうだ.未発表の修論や実験ノートのデータも出してもらった.ほげほげな触媒だとふがふがな収率っていうデータ.
データを増やしたいところだが,実験は大変.化学式をなんとか数値データにできないだろうか.先行研究があった.シミュレーションで最適な構造を求めてそのときの価評の角度とか電荷とかいろいろあるのでそれで数値化する. * 特徴量選択とかまだまだ仕事はあるが最先端でもこの段階である * 反応収率は確率なのでロジスティク回帰する.特徴量はLASSOで正則化してスパースにする. * シグモイド関数の形状もハイパラ調整with LOOCV
14個のデータから11の特徴量がでてきてOhって感じだが,サンプルサイズにしては結構うまくいっている.目的が目的なので,実験収率と予測収率が共に高いところが比較的似ているので助かっているそうな.
データが少ないときにどうしようかという問題がつきまとう.ディープに任せることができない場合はドメイン知識を組み込んでいろいろやることになる.
企画3-2 データ解析からの感染症流行制御
流行ダイナミクスを生態学的な方向で戦っていたが,医学分野ではそれを制御したい.
感染症疫学が医学分野でここ数十年くらい前から研究されている.感染者数が時間とともにどのように増加するかというデータと,個人レベルの伝搬微分方程式がある.粒子を人と見立てて衝突=出会いで一定確率で感染するというもの.実データにフィッティングするとモデルパラメータがわかる,というのが古典的なたたきかた.
数理モデルの役割は生態や反応の理解をしたり,実際に制御のために介入する方法の有効性がわかる.また,現在観測されているりゅこうの傾向を掴むことができる. 予測や外挿を行い,実験につなげられる.
ブリテン島の口蹄疫のデータが得られているのでモデルスタディがされている(日本はだめ).
感染症の流行ダイナミクスは病原体によって異なるため,臨床の治験を使ってモデリングしておく必要がある.時系列情報があってはじめていろいろできるので,インフルエンザみたいに急速に進化していったりヒト以外の流行が新型インフルを生むがデータが取れなかったり,HIVのようにデータを取りにくいものもある.
遺伝子データの方がまだあるため,これを特徴量に使ってやることはできないだろうか.遺伝的な変異を定量化したい.TajiamのD統計量.Dの符号で個体数の増減が見えてくる.
サンプルサイズとサイトごとのヌクレオチドの頻度(Aが何個とかTが何個とか)があればタジマのDが計算できる.これらを組み込んでDの動きを見れないだろうか.
決定論的な解析をすると1 siteのときは解けてしまい,Dの符号が個体数の増減に実は関係していないと出てきてしまう.これは仮定が悪い.総人口は有限かつ離散であり,伝搬は決定論的ではなく確率過程である.決定論的な仮定で変なことになってしまった.確率過程であると確かにDは流行依存になる.
限定的な時期の少量の遺伝子配列データだったが,複数の推定法を組み合わせることで精度を担保することができた.
企画3-3 地球科学の逆問題
岩石:個体地球の歴史や地震などの災害・資源形成解明のための勇逸の物質科学的情報源.地球物理では地震波とかを使うのに対して岩石学は物質そのものを見れる.
岩石学では日ごろFWでサンプリングする.数式が4つでてくると怒られるところだが,すさまじく難しい逆問題がでてくるので分析データを活用して戦いたい.数理情報学の力が必要ではないか.
分析技術の進歩により,大量で高次元の分析データが得られているのが現状.これを最大限活用したい.今までは定量的にみにくいものを見て過去の歴史を解き明かすということをせざるをえなかった.
歴史は決定論的じゃないか? それでどうにもならないし確率論的に記述するといろいろ見えてきた.岩石だけでなく自然を相手にする場合は使えるのではないだろうか.
地球科学分野において様々な研究例が生まれてきた.すべて一人でできないので情報屋と手を組む.
沈み込み帯の研究 * 海洋地殻が大陸地殻の下に潜り込む地球上でもっとも活動的な場所で,日本列島はまさにこれの上.
地球科学は逆問題であり,解に一意性などがあるとは限らない.簡単な線形の場合だと $$y=Ax+e$$ で観測データ$y$から道パラメータ$x$を推定する.地球科学ではデータが少なくて溶けなかったり,ノイズ$e$もあったりする.
ゆっくりすべりの形を見たい.連続性の仮定(Ridgeみたいな二次形式)では詳細な(ドーナツ状の)形状をとらえきれず,ドーナツの穴が埋まってしまっていた.確率スパースモデリングができないだろうか.これをLASSOにしてみると,つぶれすぎてしまった.連続性が間違っているというわけでもないので,それも付けたり,また連続なだけでなく不連続に立ち上がる場合も許してベイズ推論してみた.できた.連続性と不連続な立ち上がりはドメイン知識による貢献.
同じゆっくり滑りでも,場所によっては問題サイズが大きすぎるということになる.MCMCがつらいのでFused LASSOをやってみる.実データでも階段状の不連続境界を含む分布を得られた.
別の問題で,従来は無理やり可視化して目で見ていたり,高次元データを平均値にして眺めたりしていた.せっかくデータがあるので定量的に解析したい.PCAで見てみるが,解釈できない…….トピックモデルにあてがったらできた.
圧力温度履歴推定はデータ同化である.普通のデータ同化は時系列と観測を対応させられるが,地球科学では採取結果の空間データしかない.このときはガウス過程を工夫することで戦うことができた.
企画セッション メディアデータ
企画4-1 CVでの無教師学習と課題
- GANすごい
- DCGANで画像がいい感じ
- DeepImagePriorの研究がされている
- Spectral正規化をPFNがやった
- GANではモード崩壊と学習不安定がする
- モード崩壊はあまり画像空間をよく学習できていない?
- 学習はZero-centeredな正則化をするとうまくいきやすい
- CNNと比べると特徴ベクトルがよくわからない
企画4-2 音声とGAN
- 人は政体を開閉させて空気を振動させて,口や舌で音色尾をつける.これらを畳み込んだ1次元信号が人の発話である.
- テキストから音声の音声合成
- 音声変換は変声など
- 音声強調は聞きやすくできるようとってくる
- 音声信号はDNNに使いやすい
- 音響信号は統計的な信号処理が使われる
- 音声を作るのにGANをやる
- そもそも音声解析にCNNを使うときもある:FT結果の画像を突っ込む
- 生成については,自己回帰生成ネットとGANがいる.前者は学習しやすく生成が苦手で,GANはその逆.
- 苦手:すぐ生成できない
- 音声変換を使うと発声障碍者の声をより自然な声にできる
- また微弱な声を明確な声にしたり
- ノンネイティヴの発音修正したりアバターの輪写生変換ができる
- 機械音声は良くも悪くも間違えないためゆらいでほしい
- 感情を呼び起こしてほしい(煽情音声合成)
- End2Endでやっていることが多いがこれは学習データやマシンリソースがでかくなる
- そこでEndlessモデルを作る.End2Endモデルをウロボロスの蛇のように食わせあう.Endがあるからデータへのラベリングなどコストが必要だからだ.
- 究極的には人手のラベリングが不要としたい
企画4-3 知識グラフ
- 知識グラフが自然言語を記述する
- Googleがそういうデータを持っている
- 知識グラフを補完するというタスクがある
- 双線型,平行移動,神経回路網などでスコア計算などによりグラフを補完する
- 一般には双線型や平行移動が主流.保管モデルの表現力が最近議論されている
- 任意の3次隣接テンソルがあらわせるというのが要求されるが,古典的な奴の一部はだめだった
- テンソルデータを利用していてそのCP分解とかをやっている
- テンソルランクのバウンドをタイトにしたい
- 汎化性能もちゃんと理論的にやりたい(実験と直感が主立っている)
招待講演4 量子アニーリング
物理学科から科学技術創生研究院.理論物理学者でスピングラスを紙と鉛筆で戦ってた.あるとき量子計算の基礎を作っていた.
量子アニーリングは量子計算の一部?
- 一部というには小さいし量子計算のためのものでもない
- 数十億円の量子計算器.でかい.
- 軍人にモテてる
- クラウドユーザが多い
D-Waveは量子計算機?
- 定義による.
- 利用者は増えている.
- 月に1時間30万円のクラウドユーザがいる.
- D-waveは西森先生に何も挙げてないw
スピングラスは難しい最適化問題,量子力学的に解けそう.解けた!
- MITの連中()がSATを量子的に解くと早い(間違ってた)
- 量子アニーリングは西森先生の名付け.こっちが先と知られてこちらが尊重される.
- ムーアの法則は頭打ちだが,かつての半導体のような勢いで量子計算機が大きくなっている
いろんな会社が頑張っている.
量子計算機は,最適化(主にアニーリング),シミュレーション(主にゲート模型),機械学習(両方)がある.機械学習ではPCAなど線形代数演算とかも.
量子ビットの基礎。2x2くらいの世界なら高校生でも理解できる(と脅すと話を聞いてもらえる)*1
- 普通のビットは電圧の高低が別々
- 量子ビットは01が共存する
- 小さなニオブ金属のリングをほぼ絶対零度にして超電導にする.
- このとき左右両方向に電流が流れる(やべえ)
- この不思議さを第1原理にするのが量子力学
リング=量子ビットを線型個増やすと$2N$オーダーで扱えるビット列が増えていく.リングはとても小さいのでこれはすごいことである.この指数爆発を引き起こせるのが量子計算機の計算性能の期待の源.
これはゲートもアニーリングも同じだが,アニーリングであれば最適なビット列をすばやくとってこれるため組合せ最適化に強い.
TSPをビット列で対応付けると最短経路がビット列. 目的関数の引数集合に対して,最適化をする.(目的関数=経路長の最小化)
シミュレーティッドアニーリングは普通の確率だった.量子効果でやったら何が起こるかを調べたらすごくうまくいったという論文が最初.
理論的にはまだおさえきれていない.実験的にはGPUにも勝てる.
本当に量子力学で動いてるの?
- 重ね合わせ状態を保つ時間(コヒーレンス時間)はノイズによってえらく短くなる.量子アニーリングはコヒーレンス時間より早く終わらせているがほんまか.
- 一つの量子ビットの生死では全体を記述できない.エネルギースペクトルと量子もつれを見ると,全体では量子効果が確かにあった.
1億倍速いマ?
- 本当です,その問題では.
- そうなるように問題を頑張って作っていた
- そもそも速くなった問題が見つかっていなかった
- めちゃくちゃ電力を使った実験をしたがDWaveはエコだった
- G社のリソースの数分の一を使うレベルでとても電気も使った
- 電気量も考えると,1億倍じゃ効かないコスパかもしれない.
量子計算機というか量子アニーリングマシンはフォルクスワーゲンが交通流最適化に成功している.
non-stoquasticハミルトニアン:非疑似古典
リバースアニーリング:ほかの方法で局所最適に入ってから探していく.
今ならなんと5千万円で量子アニーリングマシンがつけるぞ!! 詳しくは東北大学に連絡連絡
- 離散最適化だけ?
- 離散最適化だけというか離散化して載せる
- 何が苦手?
- ほとんどが苦手で古典でよい.量子計算機は一部に強いだけである
- 非疑似古典ハミルトニアンまわりで戦うとアニーリングは汎用化できる?
- 早いからやっているのであって汎用のためではない
- 得られた解の正しさの保証はあるか?
- 保証はないので理論の仕事.ゆっくりやると確率1になっていくが実際はマイクロ秒でやってしまうので保証ない.
- 解きたい問題をイジング模型に落とすのはどう工夫する?
- 経路をビット列にする,とかは問題ごとにやらないといけないので一般的な方法論はまだない.システマティックにやる方法や自動化しようとする動きが出てきている.
*1:めちゃくちゃ偉くなったら使ってみたい