カイヤン雑記帳

カイヤンがやったことを書いておいたり、ぼやきたいことを書き込んだりする場所

【IQ1AdC】W理論こと特異学習理論の重要論文公式10本ノック【12/9】

おはようございますまたはこんにちはまたはこんばんは,カイヤンです.

本記事はIQ1 Advent Calendar 2019(主催者 id:chakku000 )における12月9日の記事です.

おことわり

今回は,ベイズ推論の特異学習理論(Watanabe理論,W理論)についての記事です.IQ1なので数学的に厳密な書き方でないどころか数式が登場しませんのでご了承ください. また,IQ1なために各論文を肯定的に読んでいます(理論が中心の紹介ですが一部の数値実験についても).クリティカルリーディング要素はありません.申し訳ありません.

よりおことわりらしいおことわりはIQ1AdCの雰囲気をぶち壊すので折り畳みます.

IQ1AdCそのものは穏当な内輪ネタです.学習理論の研究者をバカにする意図もなければ,IQの専門家や本当に困っている方々を嘲る意図もないことを強調させていただきます.あくまでカイヤンが内輪ネタ::IQ1なだけです.

以降は論文紹介&IQ1AdCのテンションで書きます.

概要=TL;DR

  • IQ1にとってサーベイは大変であるが,渡辺先生のHPに公式10本ノック的なW理論の重要論文が上がっていた.
  • 数あるW理論論文のなかでなぜその10本なのか(何がすごいのか)を各論文の概要を説明しつつ考察してみた.

本記事の構成は以下のようになります.

W理論って何?

W理論はベイズ推論の特異学習理論の通称です.理論構築に多大な貢献をした渡辺澄夫先生から名前を取ってWatanabe理論,略してW理論と呼ばれていると考えられます.下記画像のリンク

f:id:chijan:20191203193245p:plain
渡辺先生のオリキャラ「学習くん」のドット絵を描いてみた.

「多大な貢献」は主に次の内容です.

  • 従来の統計理論では扱うことができなかった統計モデルに対して,そのベイズ推論を扱うことができる理論を代数幾何学を本質的*1に用いて構築した.
    • 従来の統計理論(正則理論)には,尤度やベイズ事後分布は正規分布で近似可能であるという仮定がある.混合正規分布ニューラルネットワークをはじめとした,今日広く使われるような構造を持ったモデルでは一般には成立しない.W理論によりそのようなモデルも取り扱うことができるようになった.
    • 正則性の仮定がないVC理論やPACベイズといった従来理論では,汎化損失と経験損失のギャップの上界についてのみ調べられていたが,決してタイトとは言えないバウンドとされがちであった.W理論は汎化損失と経験損失そのものの一般的な挙動を理論的に明らかにした。
    • 理論構築以後,様々な統計モデルの汎化損失と周辺尤度(の対数値の -1 倍,自由エネルギーと言う)の具体的な漸近挙動が理論的に明らかにされた.
    • 実験的に最尤推定や事後確率最大化推定よりも予測性能が高いことが報告されていたベイズ推論だが,そのことが理論的に解明された.
      • 雑な言い方をするならば,特異点があるからこそ汎化するということがわかった*2
    • 代数解析学代数幾何学を応用しなければこれらの成果は導けなかった;代数解析/代数幾何学純粋数学の権化とされがち)が統計学(数学ではないとか言われることもある応用数学*3と本質的に結びつくという驚異的な理論が生み出された.
  • 理論の結果を用いて,従来の統計理論では扱うことができなかったモデルを使っていても,データから汎化損失や自由エネルギーを簡便に計算する方法が発表された.
    • 今日,その方法が記されている論文はWeb of Scienceの上位1%被引用数論文となっており,手法名の通り学術界から産業界まで広く使われる方法となった*4

正則理論で扱われる統計モデルは正則モデルと呼ばれ,これに対して従来理論では扱うことができなかった統計モデルは特異モデルと呼ばれます. ベイズ推論に限らず,特異な統計モデルの理論研究がされており,それを特異学習理論と言います.渡辺先生の上記の業績は,ベイズ推論の特異学習理論について,上記のことを解明し,広く使える方法論を理論的に構築したということです(すごすぎる).

注:特異という言葉は正則モデルに対してのものです*5.珍しいコーナーケースのモデルを扱っているわけではありません.上述のように,混合分布やニューラルネットワークといった構造を持つ統計モデルは今日広く使われています.隠れマルコフモデルや行列分解(NMFなど)も特異モデルです.また,W理論は正則モデルに対する理論(正則学習理論)も内包した結果になります;正則な場合が特別な場合として含まれます.そのため,一般理論といった呼び方をすることもあります*6

なんでこの記事書いてるの?

上記のように数学的に驚異的でありかつ統計学的に有用なW理論ですが,渡辺先生のHPに次のようなページがありました:「学習理論の最近の発展を学びたいかたは、下記の論文を読みましょう。 」

  • 追記:2020年度になってからページの中身が変わったようです.かつて(少なくとも本記事投稿日時に)下記の10論文があったということでご了承ください.

いわゆる10本ノックというやつです.しかもそれがある種「公式」に出てきました.IQ1にとって最近の発展を自力で追いかけるのは一苦労なんてものではありません.これはやるしかないのではないでしょうか. 全論文をN本ノック的にがっつり紹介するのはIQ1には大変ですので,今回はこれが公式であることに着目し,なぜこの10本が選ばれたのか(何がすごい論文なのか)を考察することで,ただのアブスト列挙にならないよう配慮しました.その考察に必要な程度に内容の紹介もしたり,プレプリントも含めたより新しい情報についても追記します.

……え? ノック数少なくないかって? 他のCS~ML界隈が異常なんだよ!*7 言うまでもないですが,この10本以外にも特異学習理論の論文はたくさんあります.渡辺先生本人が筆頭の論文は載せないことにしているのか,始まりの論文や,状態方程式・WAICやWBICはありません.

W理論公式(?)10本ノック

上記Webページに登場する順に進めていきます.

追記:学習係数はlearning coefficientの邦訳であり,自由エネルギーや汎化誤差のleading termに出てくる係数を指します.学習率learning rateとは関係ありません.

論文1

(1) Keisuke Yamazaki. Asymptotic accuracy of Bayes estimation for latent variables with redundancy. Machine Learning (2016) 102: pp.1-28, DOI 10.1007/s10994-015-5482-3.

link.springer.com

だいたいどんな話?

隠れ変数を導入したモデルのベイズ推論は広く使われている.例えば混合分布ではクラスタに対する指示変数を隠れ変数として導入することが多い. 隠れ変数が導入されたモデルは主に教師なし学習クラスタリングなど)でよく見られるが,このようなモデルではパラメータの集合から確率分布の集合への写像単射にならない,識別不可能な特異モデルになる場合がある.W理論はそのようなモデルであっても適用可能な,観測変数についてのベイズ推論の漸近理論であるが,本研究ではW理論を隠れ変数の推測に適用した. その結果,隠れ変数と観測変数の同時周辺尤度と観測変数のみの周辺尤度(通常のW理論が対象とする)の学習係数の差が,隠れ変数の推測の主要項となっていることがわかった.

なぜこの論文?

隠れ変数推測について特異でも正則でも成り立つ理論が構築できた最初の例であり,W理論で確認された漸近理論の構造が隠れ変数推測でも類似したものが確認できたエビデンスでもある. また,W理論を隠れ変数推測の問題にまで発展させることができたとも受け取れる結果である.

補遺は?

同じ著者により,W理論では本質的な仮定となっていたデータのi.i.d性を外した形でも隠れ変数推測の学習理論を作ることができるという発表が2019年にあった. www.mdpi.com 非i.i.dの下で理論を作ることは非常に難しいため,これは大変インパクトのある研究業績と考えられる.

論文2

(2) Keisuke Yamazaki, Daisuke Kaji. Comparing two Bayes methods based on the free energy functions in Bernoulli mixtures. Neural Networks, 44 pp.36-43, 2013.

www.sciencedirect.com

だいたいどんな話?

混合分布のような階層的なモデルは広く使われている.それらのベイズ推論の方法として,MCMCを用いたフルベイズ(通常のベイズ推論)と,事後分布を平均場近似することで計算しやすくする変分ベイズ法という近似推論が挙げられる.変分ベイズ法の学習は変分自由エネルギーの最小化によって行われるが,その漸近挙動がいくつかの階層的なモデルで解明されている.変分自由エネルギーの漸近挙動において,ハイパーパラメータによって劇的に挙動が変化する相転移と呼ばれる現象が確認されており,学習の進み方について相図を考えることができる. 一方,変分ベイズ法はベイズ推論の近似であるが,どれだけ良い近似であるか・近似誤差はどの程度なのかは解明されていない.本研究では,混合ベルヌーイ分布の自由エネルギーの漸近挙動を解明することにより,混合ベルヌーイ分布の変分ベイズ法の近似精度を理論的に解明する.

なぜこの論文?

変分ベイズ法は高速な推論が可能であり,広く使われている方法である一方,これがベイズ推論の近似であるという認識はあまりされていないのではないかと考えられる. 近似だとして,ベイズ推論をMCMCなどサンプリングベースに行うのと大差ない事後分布や予測分布が得られると考えられているように見える. この論文は,変分ベイズ法とベイズ推論の違いを直接理論的に比較した最初の研究であり,ハイパーパラメータによる相転移構造に違いがみられるなど変分ベイズ法はベイズ推論とはまた異なる推論を行っていることが具体的なモデルについて解明された結果となっている.

補遺は?

採録だが,別の著者により非負値行列分解についても変分ベイズ法とベイズ推論の違いが研究されている. arxiv.org こちらのプレプリントでは,変分ベイズ法がベイズ推論とどの程度異なるのか(変分近似誤差)について理論下界を示している.

論文3

(3) Miki Aoyagi. Learning coefficient in Bayesian estimation of restricted Boltzmann machine. Journal of Algebraic Statistics, vol. 4, No. 1, pp.30-57, 2013.

https://jalgstat.library.iit.edu/?journal=jalgstat&page=article&op=view&path%5B%5D=18jalgstat.library.iit.edu

だいたいどんな話?

制約付きボルツマンマシンについて一般のケースでベイズ汎化誤差を司る学習係数=実対数閾値の厳密値やタイトな上下界を導出した. これまではシンプル化した状況か完全に制約のないボルツマンマシンについてしか実対数閾値は解明されていなかった.

なぜこの論文?

(5)で後述するモデルを除き,実対数閾値の厳密値が広い範囲で解明されることはなかなかない(非常に難しい特異点解消が必要になるため)ため, 多くの場合について厳密値を求め,かつその他についても上下界を示すことでバウンドのタイトさを保証している点は非常にインパクトのある成果であると考えられる.

補遺は?

まだプレプリントはないが,別の著者による国内会議発表(IBIS)において,混合ポアソン分布の実対数閾値の上下界が解明されている. www.ieice.org こちらについても,非常にタイトなバウンドが得られており,査読付きの発表が待ち遠しい成果である.

論文4

(4) Miki Aoyagi, Kenji Nagata. Learning coefficient of generalization error in Bayesian estimation and Vandermonde matrix type singularity. Neural Computation, vol. 24, No. 6, pp.1569 -1610, 2012.

https://www.mitpressjournals.org/doi/10.1162/NECO_a_00271www.mitpressjournals.org

だいたいどんな話?

Vandermonde行列型特異点と呼ばれる特異点のクラスについて特異点解消を行う方法を(部分的に)構築し,それを用いて3層ニューラルネットワークや混合分布モデルの学習係数=実対数閾値の解明に役立てた.

なぜこの論文?

3層神経回路網や混合分布モデルの実対数閾値についての先行研究では,それぞれのモデルについてそれぞれの方法で実対数閾値の上界を導出していたが,本研究により方法論の解明が一歩進んだ. 実際に他のモデルの研究に役立てるには特異点がVandermonde行列型に帰着できることを示し,かつ上記論文ほかの方法により実対数閾値を計算する必要があるため,数学でよくある「解ける方法ができたので解けたことになった」とまでは言えないものの,完全にオーダーメイド的であった学習モデルの特異点解消について一般的な方法に近いものが得られた最初の研究の一つとなった.

補遺は?

同じ著者により,Vandermonde行列型特異点の解消方法の研究が更に進められている(下記の発表は2019年). www.mdpi.com 実対数閾値の厳密値により近づきやすくなった.なお,解消方法そのものとして,ブローアップだけでなくトーリック改変という方法が有効であることも確かめられている.

論文5

(5) Miki Aoyagi, Sumio Watanabe. Stochastic Complexities of Reduced Rank Regression in Bayesian Estimation, Neural Networks, No. 18, pp.924-933, 2005.

www.sciencedirect.com

だいたいどんな話?

線型ニューラルネットワークとも呼ばれる縮小ランク回帰(パラメータとしては行列分解とも等価)という階層モデルの学習係数=実対数閾値を一般のすべての場合について厳密値を解明した. その場合分けは複雑であり,特異点解消写像も非自明であるものの,実対数閾値の具体的な値がジャンプすることはない.

なぜこの論文?

正則モデルと擬正則モデルを除き,一般のすべての場合について実対数閾値の厳密値が解明されているのは現時点では本論文による縮小ランク回帰のみである. 逆に,本論文によって縮小ランク回帰の実対数閾値が完全に解明されたが,これは理論的な汎化誤差・自由エネルギーの挙動が厳密に導かれたことも意味しているため,特異学習理論の数値実験においてベンチマーク的に利用しやすいことを意味している.実際,『ベイズ統計の理論と方法』や次の(6)で紹介するsBICの実験では特異モデルの最も基本的な場合として数値実験に使われている. 線型ニューラルネットワークは次元削減を除けば実用というよりニューラルネットワークの性質解明のための簡略化として研究されることが多いが,ベイズ推論の場合はW理論ベースに厳密な学習理論が構築された(汎化誤差・学習曲線の解明)という点もインパクトの大きいものである.

補遺は?

線型ニューラルネットワーク最尤推定する場合について,別の著者が非常に厳密値と近い形で学習係数を導出している. link.springer.com これはゼータ函数の極というわけではないため実対数閾値ではないが,特異学習理論において最尤推定や事後確率最大化推定の学習係数はある正規確率過程の最大値として記述されるため具体的な導出は難しく, 特異学習理論とはある種独立に求められた本結果もまた興味深いものである*8*9

論文6

(6) Mathias Drton, Martyn Plummer. A Bayesian information criterion for singular models. J. R. Statist. Soc. B. , Part 2, pp.1-38, 2017.

rss.onlinelibrary.wiley.com

だいたいどんな話?

対数閾値は高次元代数幾何学における重要な双有理不変量であったが,特異学習理論の構築によりベイズ推論においても重要な量であることがわかった.しかし,実対数閾値を理論的に計算するには真の分布についての仮定が必要であり,現実的なモデル選択に直接応用することは困難であった.一方で,WAICWBICといった真の分布フリー・実対数閾値フリーにモデル選択に使用できる情報量規準が特異学習理論に基づいて提案されているが,WBICについては数値的な分散が大きいことが知られている.本研究では,実対数閾値を用いてBICを改良した特異ベイズ情報量規準(sBIC)を提案する.sBICは実対数閾値の理論的な値を利用することで,特異モデルであっても適用可能になっており,自由エネルギーとの一致性が証明できる.また,MCMCを用いないため計算コストがWBICよりも低く,数値実験ではWBICより分散が小さく,モデル選択の精度が高いことが確認できた.なお,実対数閾値は厳密値でなく理論上界を用いても実験的にWBICより精度良くモデル選択可能である.

なぜこの論文?

「実対数閾値を理論的に計算するには真の分布が必要」という点は「実対数閾値を求めて何の役に立つんですか?」という質問に対する一つの脆弱性となっていた*10*11.情報量規準sBICが発表されてからは,これを通してモデル選択に直接応用できる(しかもWBICより高速かつ高精度)ことになったため,実対数閾値の厳密値やバウンドを解明する研究の意義・有用性を飛躍的に向上させることとなった.

補遺は?

実対数閾値の厳密値が不明なモデルは多い. 実対数閾値の不偏推定量を提案した下記のプレプリントでは,数値シミュレーションにより推定した実対数閾値推定値を用いてsBICによるモデル選択を行う方法として,広く使えるsBIC(WsBIC)を提案している.実対数閾値の理論的解明に関する有用性向上やMCMC不要という方向性とは逆行するものの,WBICのように広く使えてsBICのように高精度なモデル選択が可能である. arxiv.org

備考として,WBICはMCMCが必要ながらも実対数閾値フリーで使えるためsBICと直接的に競合しない.他の注意点として,上記のWsBICはsBICの精度の良さとWBICの適用範囲の両方を兼ね備えているが,候補モデルとそれに対するサブモデルすべての場合について実対数閾値を推定する必要があるため計算量は小さくないことと,そもそも上記プレプリントはモデル選択の方法論研究というよりは実対数閾値の不偏推定量を導出したことが主要な成果であることも挙げられる.情報量規準としての特徴をまとめると,下記の表のようになるだろう.

情報量規準 BIC WBIC sBIC WsBIC
適用可能範囲 正則モデル 多くのモデル 実対数閾値がわかるモデル 多くのモデル
モデル選択精度 特異モデルでは低い 中程度 高い 高い
計算コスト 少ない(最尤/事後確率最大化推定のみ) 中程度(MCMC1回) やや少ない(EM法の定数倍程度) 多い(データを変えたMCMC複数回)

論文7

(7) Kazuho Watanabe. An alternative view of variational Bayes and asymptotic approximations of free energy, Machine Learning, 86(2), 273-293, 2012.

link.springer.com

だいたいどんな話?

ベイズ推論の近似方法は平均場近似を行う変分ベイズ法と,凸函数とブレグマン情報量を用いて変分事後分布の上下界を構成する局所変分近似という方法とが代表的である. 本研究では局所変分近似についても考察し,平均場近似による変分ベイズ法は局所変分近似の特殊ケースとして記述可能なことを示した.これにより,解明が困難とされていた変分ベイズ汎化誤差の理論上界を得る一般理論が構築できた.具体例として,混合正規分布モデルの局所変分近似による自由エネルギーの漸近挙動を導出し,変分ベイズ汎化誤差の上界を解明した.

なぜこの論文?

著者は平均場近似型の変分ベイズ法の近似自由エネルギー(変分自由エネルギー=負のELBO)の漸近挙動を最初に解明した,言わば変分ベイズ学習理論の第一人者であるが,局所変分近似についても最初に取り扱っていた.本論文は局所変分近似と変分ベイズ法を繋げただけでなく,タイトルにもあるような新たな視点により変分ベイズ汎化誤差の上界を導出する一般的な枠組みを構築した.変分ベイズ汎化誤差はベイズ汎化誤差と異なり自由エネルギーからただちに挙動が解明されるわけではなく,同一の学習係数で記述できるとも限らない量であり,数少ない例(線型ニューラルネットワーク;パラメータとしては行列分解と等価)ではランダム行列理論と変分ベイズ定量のexact formを用いて理論解析していた.このように解析が困難な変分ベイズ汎化誤差であるが,局所変分近似を利用することで上界を作ることが一般に可能であることを本研究は示している.

補遺は?

局所変分近似そのものは,非指数型分布の混合モデルにおいて変分ベイズ法ライクなアルゴリズムで近似事後分布を計算するために利用可能であり,混合ロジスティック回帰モデルなどで使われている. ieeexplore.ieee.org なお,上記の小西さんらの論文はアルゴリズムの導出と実データ応用の論文だが,その第二著者である中村さんは別に混合ロジスティック回帰モデルの局所変分近似自由エネルギーの漸近挙動とハイパーパラメータによる相転移構造を解明している.こちらは国内会議発表(IBIS)である. www.ieice.org

論文8

(8) Shinichi Nakajima, Masashi Sugiyama. Theoretical analysis of Bayesian matrix factorization. Journal of Machine Learning Research 12 (Sep), pp.2583-2648, 2011.

www.jmlr.org

だいたいどんな話?

筆頭著者は先行研究において行列分解(或いは線型ニューラルネットワーク)の変分ベイズ汎化誤差をランダム行列理論と変分ベイズ定量のexact formを用いて行列サイズが無限大となる極限の場合を解明していた. 本研究では変分ベイズ行列分解の解の振る舞いをハイパーパラメータつまり事前分布に着目して理論解析を行ったところ,無情報事前分布を用いた場合でも正則化が起こっている(陰的正則化)ことがわかった.このように,モデルの特異性による事前分布の設定に対する非自明な振る舞いを理論的に導くことができ,また経験ベイズ法の場合における解の振る舞いも導出した.

なぜこの論文?

ディリクレ分布やガンマ分布のような,事前分布に零点や発散点が含まれる場合ではハイパーパラメータによって汎化誤差や自由エネルギーの挙動が劇的に変化する,相転移と呼ばれる現象が起こることが知られている. 先行研究において,事前分布をデルタ分布を含む正規分布とした場合の変分ベイズ行列分解の相転移構造が汎化誤差と自由エネルギーの挙動と共に解明されていた. 本研究では変分ベイズ法を用いた時の解そのものについて解析を行っている点が新しいのだが,一般的に変分ベイズ法の自由エネルギーの挙動はよく研究されていても解の振る舞いはわかっていないことが多い. その中で,本論文は解の振る舞いを様々なケースにおいて解明しており,また無情報事前分布を用いても陰的正則化が起こるという事後確率最大化推定とは大きく異なる結果を証明している.

補遺は?

上記で述べている,筆頭著者である中島さんによる変分ベイズ行列分解の汎化誤差の研究は下記である. https://www.mitpressjournals.org/doi/10.1162/neco.2007.19.4.1112www.mitpressjournals.org

論文9

(9) Naoki Hayashi, Sumio Watanabe. Upper Bound of Bayesian Generalization Error in Non-Negative Matrix Factorization", Neurocomputing, Vol. 266C, pp.21-28, 2017.

www.sciencedirect.com

だいたいどんな話?

非負値行列分解の学習係数=実対数閾値をいくつかの場合で厳密値を・一般の場合でその上界を理論的に解明した. 非負値制約のない行列分解(上述(5)の縮小ランク回帰と等価)と異なる実対数閾値が得られており,また真の分布による影響も行列のランクとは異なる量が与えていることが解明された.

なぜこの論文?

ある応用特異モデルの実対数閾値の上界を作る研究自体は他にもあるが,本論文ではパラメータに非負値制約が課された場合を取り扱っている. これまでは混合分布の混合比のような自明なものを除けば,特にパラメータ空間に制約は課されていない,すなわち実質的な制限がない場合が扱われていた. 本研究は,パラメータの制約が実対数閾値すなわち汎化誤差や自由エネルギーに及ぼす影響を具体的な場合で解明した最初の研究である*12

補遺は?

採録だが,同じ著者により非負値制約に加えてsimplex制約を加えた場合である確率行列分解についても実対数閾値が研究されている. arxiv.org これはLDAの実対数閾値と等価になることも示しており,またsimplexにした分だけ自由度を減らした行列分解や非負値行列分解と一致しない場合があることも考察している.

論文10

(10) Takeshi Matsuda, Sumio Watanabe. Weighted Blowups of Kullback Information and Application to Multinomial Distributions.2008 International Symposium on Nonlinear Theory and its Applications NOLTA'08, Budapest, Hungary, September pp.7-10, 2008.

search.ieice.org (国際会議版が見当たらないのでより発展した内容の電子情報通信学会論文誌版リンクを記載)

だいたいどんな話?

混合3項分布の実対数閾値をいくつかの条件下で厳密に求めた.方法として,重み付きブローアップと呼ばれる代数幾何学的アプローチが有効であった.

なぜこの論文?

通常,学習モデルの特異点解消を行う際はブローアップと呼ばれる方法がとられることが多い.Vandermonde行列型特異点の一部など,いくつかのケースではトーリック改変という方法も有効であることが知られていたが,本研究では重み付きブローアップの有効性が検証された.学習モデルの特異点解消は非常に難しいため,様々な道具が有効であることが検証されることは理論研究を進める基盤として重要である.

補遺は?

より一般の混合多項分布について,実対数閾値が研究されている.下記は国内会議発表予定のものである.仕事を休んで聞きに行きたいものだ. www.ieice.org

むすび

W理論こと特異学習理論について,渡辺先生が研究動向把握のためとして公開している論文10選を紹介し,またそれがなぜ10選に含まれているかを考察しました. また,上記論文に関連するような最近の研究成果についても,査読の有無を問わず補遺として追記しました.本記事が学習理論の研究や勉強を始められる方に役立てば幸いです. なお,「W理論重要論文」という点では,そもそものW理論始まりの論文とWAIC・WBICの論文は欠かせないと思われますので以下に記しておきます.

  • (11) S. Watanabe. Algebraic analysis for nonregular learning machines. NIPS. Vol.12, 2000, 356-362. Link.
    • ひとくち概要:代数解析学的に階層的なモデルの学習理論を構築した.
    • ひとくち感想:よく下記代数幾何が語られるが代数解析の方が先なんですよね.あと,NIPSに載っているのもW理論としてかなり珍しい気がします.
  • (12) S. Watanabe, Algebraic geometrical methods for hierarchical learning machines. Neural Networks, Vol.14, No.8,pp.1049-1060, 2001. Link.
    • ひとくち概要:代数幾何学的に階層的なモデルの学習理論を構築した.
    • ひとくち感想:特殊ケースを「謎のパラメータ変換」によって汎化誤差解明を行うというのが従来でしたが,この謎の変換がブローアップなどの特異点解消写像として定式化された結果は驚異的です.
  • (13) S. Watanabe, Asymptotic equivalence of Bayes cross validation and widely applicable information criterion. JMLR, 2010, pp.3571-3594. Link.
    • ひとくち概要:(ここでは略したが)汎化損失が経験損失と汎函数分散の和(後者2つはデータとモデルから計算可能)で書けるという学習の状態方程式から広く使える情報量規準WAICを提案した.
    • ひとくち感想:状態方程式及びWAICの形では真の分布依存の実対数閾値などが出てこないため応用的だという紹介が通例ですが,これは代数幾何で構築された理論のやさしいラッパー(tensorflowに対するkeras)になっているんじゃないかという気持ちにもなります.
  • (14) S. Watanabe, A widely applicable Bayesian information criterion. JMLR, 2013, pp.867-897. Link.
    • ひとくち概要:逆温度付きのベイズ事後分布を利用することで,1回の非レプリカなMCMCで自由エネルギーを計算できる,広く使えるベイズ情報量規準WBICを提案した.
    • ひとくち感想:逆温度付きのベイズ事後分布はレプリカ交換で登場しますが,一つの特定の温度のときに自由エネルギーが求められるというのが積分平均値の定理みたいです(ナイーヴな方法っぽく聞こえますが,実際に示すのは難しいです).

かんそう

さて,10本ノックを完走した感想ですが,くぅ~疲れました! 論文(7), (8)は個人的にかなり新しいというか本記事を書くにあたって初めて知った事実が多くて新鮮でした. 他の8本についても,改めてまとめてみたり何がすごいのかを解釈してブログとして人に伝えようとすると,非常に勉強になりました. 今回は2016年度のサークルのAdCのときとは打って変わって,数式レスにしてみたのですが,とっつきやすくなったという声が聞けたらとてもうれしいです.

また,IQ1なのでクリティカルリーディングを今回はしていません.完全にいつかの自分がブーメランしていますw.時間があれば各々批評的に読んでみたいとも思います.例えば,情報量規準sBICは最大尤度を計算するために最尤推定量を使いますが,特異モデルでは最尤推定は有効な推定量ではない or 発散しているという性質がありますので,もっと良い方法があるのではないか,論文の数値実験は自分でも再現できるのか(=チェリーピックされた結果ではないのか),といった点です.

最後に……記事を見ていて思うんですが,IQ1ってなんでしたっけ.本記事はクリティカルでない論文紹介なのでIQ1になってるとは思うのですが…….

これで本当に以上です.ここまでの長文をお読みいただき,ありがとうございました.IQ1AdC次の記事はconchan_akitaさんの記事です.

*1:特異点解消定理を使わなければW理論の結果は導くことができない.なお,特異点解消定理の他にも超函数理論やGelfandのゼータ函数も必須であった.特異点解消定理の応用は,それがGelfandのゼータ函数を調べるのに有用であることをAtiyahが示していたことがきっかけである.

*2:近年の深層学習理論においても,パラメータ空間の一部分が性能に寄与しておりかつそれが狭いことが巨大モデルであっても汎化する理由として考察されている;例えばこちらの発表が日本語かつ新しく読みやすい.W理論は漸近理論と言えど深層学習理論においても現れているのではないだろうか?

*3:カイヤンは数学帝国主義に片足のつま先を突っ込んだ大数学主義者です(笑).数学を使っていれば数学とまでは言いませんが,応用数学の理論は数学という立ち位置です.arXivでmathタグがついている分野は数学くらいの気持ち――学問領域の切り分けは本質的ではないし,実際W理論はcs.LGなこともあるため反例ありありですが.

*4:カイヤンも業務で使ったことがある.

*5:Fisher情報行列が正則/特異な統計モデルを,正則/特異モデルとそれぞれ呼びます.

*6:渡辺先生自信も,『ベイズ統計の理論と方法』や『Mathematical Theory of Bayesian Statistics』において一般理論という言い方をしています.

*7:ブルーオーシャンはいいぞ.

*8:ベイズ推論の学習係数より大きくなっており,最尤推定の精度が良くないことが分かる.

*9:なお,こちらの著者はかの福水健次先生であり,(カーネル法で有名な御方だが)他の特異モデルについても最尤推定の学習理論の研究を行っていた.渡辺澄夫先生とはリコー時代に先輩後輩の関係だったという噂もあり,渡辺先生のエルデシュ数を定義するグラフパスは福水先生を経由している

*10:この質問に対しての従来の回答は,達成したい汎化誤差や自由エネルギーに必要なサンプルサイズを見積もることができること,数値実験が理論通りの結果を返すことでテストが困難な機械学習モデルのテストが可能になること,というものがあり従来から十分役に立つ研究ではある.

*11:また,モデル選択や検定が直面するのは,真の分布がサンプルからわかる程度にどの程度複雑かを検討する状況であるため,仮にデータの発生源に対してモデルが冗長な場合に何が起きるかを理論的に解明しておくことは現実の問題を逆問題的に分析するときに重要という観点もある.

*12:本論文については第二著者となっている渡辺先生が自身の科研費報告においても同様の報告をしている;というか本記述については完全に受け売りである.