おはようございますまたはこんにちはまたはこんばんは,カイヤンです.
復活宣言からの1か月休刊という体たらく.うーんこの.
今回はIQ1AdCの12月11日担当記事を書きます.
過去には多少真面目なアドベントカレンダーをやっていましたが[1][2],今回は残念な感じで行きます.社会に出てIQが1になってしまったので.
IQが1なので,カゲキなことが書いてあるかもしれないっぽい~?*1
IQが1のデータ分析
IQが1になったので,データ分析にあたって考えるようになったことをまとめます.
これは,IQが1の考えです.
ただし,注釈中ではIQが1じゃないかもしれませんし,やっぱりIQが1かもしれません.
データ編
まずデータが与えられるところからデータ分析は始まります.計画? そんなものはない*2. あと,汚いデータなんて送ってこないでください.IQが1なのでそんなものをもらっても疲弊するだけです*3.まあ欠損値なんてテキトーに除去すればいいんですがね*4
モデリング編
時代はコネクショニズム! データをディープなニューラルネットワークにとりあえず突っ込めば自動的によしなにやってくれるんだ*5! いやーIQ1にも優しい時代になりました*6!
さて,データはたくさんある.ない場合はデータ分析なんかできません*7.たくさんあるので,このデータに合うモデルを作ればデータを発生している分布に適合するはずだ*8! データは多い方が賢い人工知能を作れるんだから,手元のデータは全部学習に使おう*9!
……できた! よし,損失函数は寝そべった*10し,確かに精度がほぼ100%だ*11! やっぱり時代はディープラーニング!! ディープラーニングが,ディープラーニングこそが絶対的に正しい統計的推論なんだ*12!!!! 最近収束も証明されたし*13,これまでの方法はみんな淘汰される*14!!!!
IQが1のデータ分析まとめ
以上,IQ1のデータ分析を見ていきました.いやあIQ1に優しい時代になりましたね.絶対的に正しい推論によってすべてのデータ分析の問題が(データと計算資源さえあれば)解けてしまうわけですから!
え? 注釈? 守旧派のディープヘイトがなんか言ってるだけ*15ですよあんなの.気にしない気にしない,既得権益にしがみついてるだけの,考え方が古い人の言うことなんか聞くだけ時間の無駄.決定論者には見えないものの方が多い*16し,ベイズ推論は推論結果を事後分布*17とか言ってごまかしている詐欺師*18でしかない.ベイズ理論の論文なぞ,気高き特異点論と主流からそれたナンセンスの紙切れだ*19.そもそもディープが正しいんだからこんなのに構っているのは老害よ.
ほんへ
歴史は繰り返す
人間の不良設定問題に対する認識の本質は,20世紀初頭から一歩も前に進んじゃいない!
と衛宮切嗣なら言いたくなるような惨状をここまで見てきました.
かつて,「ベイズと最尤のどちらが正しいのか」といつも何度でも尋ねられたと聞きます(実は今でも同じ問いかけがされているようです).
今日では,最尤法というよりもディープラーニングが目立ち,ベイズとディープラーニングの対立図式が目立つようになったと感じます. 流石にここまで露骨ではないとしても,ディープラーニングを使うときに評価損失にも注目しているとしても,ベイズ派やディープ派という言い方を好む人が少なくないように感じます.
ここでは,できるだけ簡単な言葉で,この質問に答えたいと思います. 一昨年は,数学理論があることを強調するために容赦なく特異点論やゼータ函数を登場させ,はてなの数式コンパイルに過負荷をかけてよくわからないページにしてしまいましたので,数式はあまり使わないようにします.
……いやまあ,
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/nandodemo.html
を見ていただいた*20方がいいかもしれませんが.この記事の元ネタですし.
正しい統計的推論は存在しない
はい,セクションタイトルが早速元ネタと被っています.というか,しばらく,被ります.
丸々コピーは論外ですし,要約することにしましょう.
「データを発生している分布がわからないため,データが得られる確率がわからない」というのが基礎となる確率が分からないということです. そのため,統計学では条件が不足していて「正しく答える」ことができない問題=不良設定問題に直面するのです.
正しく推論できない,すなわち「正しい統計的推論」は存在しない,ということです.
存在しないものを探すのはもうやめよう:現代版
そのようなわけで,「正しい統計的推論」は存在しません.
ベイズも最尤も(その「現代版」である)ディープラーニング*21も,「正しい統計的推論」ではありません.
ベイズは予測分布を推論するから正しいのではありません. ディープラーニングは損失函数に沿ってパラメータが収束するから正しいのではありません. どちらも正しくありません.
ベイズはパラメータを事後分布として推論し,不確かさを定量的に扱うことができるから正しいのではありません. ディープラーニングは特徴を自動的に抽出したパラメータが収束していくから正しいのではありません. どちらも正しくありません.
かつて,ベイズと最尤のどちらが正しいのかという不毛な争いがありました.
今日,ベイズ派とディープ派という形で,歴史が繰り返されているように見えます.
また,ベイズにしてもディープにしても,その他統計的学習全般について,不良設定問題であることを揶揄してどうこうと不適切に言うのは今でもあるようです.
好き嫌いはどうすることもできませんが,正しい正しくないといったところで議論をするのは,違うと思います*22.
統計学は何ができる学問か
……のセクションまで進むと,完全に元ネタに収斂するので,大幅割愛します.
確かなのは,上のIQ1の例のように,経験損失に注目していては,どんなにデータ数が多くとも,見かけの達成度しかわからないということです. 本当の達成度は,わかりません.
この本当の達成度というのは,統計モデルの間違っていなさを意味します.いわゆる汎化損失です.
統計学は正しい推論はできませんが,推論の正しく無さを正しく知ることはできるのです. データを発生している真の分布は不明=基礎となる確率は不明でも,それがどんなものであっても成立する普遍法則を証明することができればよいわけです.
例えば,ベイズ推論ではデータから計算できる経験損失と,やはりデータから計算できる汎函数分散(統計モデルの函数としての分散のようなものです)を使うと, 本来真の分布がわからなければ計算できない汎化損失を計算(漸近的に,かつ平均的に,ですが)*23することができます.
また,ニューラルネットワークや混合分布といった階層的な構造や隠れ変数を持つモデル(特異モデルと呼ばれることがあります)においては,最尤推論や事後確率最大化推論よりも, ベイズ推論の方が汎化損失を小さくできることが証明されています.逆に,特異モデルで最尤推論をすると,汎化損失は大きくなってしまいます. これは,ベイズ推論が正しいという信念ではなく,ベイズ推論の方が汎化損失を小さくできることが数学的に証明されている定理・理論です.
正しい推論ではありませんので,もちろんこれでデータを発生している真の分布が得られるわけではありません. しかし,真の分布がわからなくても,推論の間違い具合を知ることができる・モデルを数学的な手続きで評価することができるのが,統計学の強みなのです. なお,真の分布と統計モデルに制約――上で述べたニューラルネットワークや混合分布といった特異モデルは悲しくもこの制約を満たしません――が付いてしまいますが,最尤推測であっても汎化損失がデータから(漸近的にかつ平均的に)計算できる方法があります. AIC(情報量規準,赤池情報量規準)と呼ばれるものです.このAICが,おそらく初めて統計学のこういった強みを証明した結果です. 「AIC以降の統計学」という言い方はたまに聞きますが,一種のパラダイムシフトを起こしたことは間違いないでしょう. 正しい推論を求めるのではなく,推論の間違いを正しく把握することに,シフトしたのです.
このことは,統計学を学ぶ上で非常に重要な動機付けになる上に,実際統計学を使う上で有効な知識であるにもかかわらず,あまり知られていないように思えます. そして,不良設定性も相まって誤解したままネガキャンする悲劇が繰り返されているように思います.
むすび
IQが1のデータ分析について,それにまつわる論争について,ぼやいてみました.
以上で,IQ1AdCの12月11日担当の記事を終わります. ここまで読んでいただき,ありがとうございました.
……これやっぱり後半は元ネタのパクりくさい……くさくない?
まあ数学の定理を説明したら同じことを説明することになるわけだし,多少はね?
IQが1なのでそのことに気付いたのは執筆締め切りの30分前であった.完.
付録
Ques. IQ1の例はあまりにもひどい.藁人形論法してない……してない?
Ans. あまりにもひどいけど,実在します.ここまでひどくなくても――交叉検証くらいはしていてもしても――,テストデータでチューニングしてしまい結局ベンチマークデータセットなどに過適合しているというのは起こりえます.
Ques2. 筆者のIQは?
Ans2. 1.
*1:内輪ネタ.このAdCの主催が某これの某駆逐艦が好きでよく言っているので.
*2:基本的には,何か仮説を検証するためにデータを取ってくることが重要です.なんか最近はとりあえず集めたデータから何か言えないかって話も多いようですが
*3:前処理から推論は始まっています.
*4:欠損値を除去するととてもデータが偏ります.補完しましょう.補完方法は今日もいろいろ研究されています.古典的かつ有効なものとしては多重代入法が挙げられます.
*5:データが得られている分野の知識=ドメイン知識を考慮せず,簡単なモデルでデータの様子を見ることもなくいきなり深層神経回路網に突っ込んでも得られるのは虚無です.
*6:手法が増えた分むしろ厳しい時代になったと思います.
*7:さほど多くない場合がむしろ多いんだよなあ…….
*9:それで手元にないデータにそのモデルが合うことは納品前にどうやって確かめるんですか?
*10:訓練損失が寝そべりきってしまいましたかそうですか
*11:そりゃあ学習データで評価したらそうでしょうよ
*12:正しい統計的推論は存在しません.不良設定問題って知ってる?
*13:急にIQが上がっているように見えますが,収束と汎化は違うのでやはりIQ1です.
*14:絶対的に正しい統計的推論があると信じ,他の方法はなくなるというのは20世紀初頭の人と同レベルの考え方です.
*15:まともな研究にもあーだこーだ言う無知な癖ネガキャンだけは一丁前な人がいるのは事実だがこれは果たして…….
*16:これは一定ラインまでは正しいが,決定論的に解ける問題をわざわざ学習で解くのは…….
*17:予測分布を出していない,-114514点.
*18:これもうどっちが頭古典派かわかんねえな.
*19:IQ1だけでなく,VC理論やAllen理論・収束レートの研究をしているNIPSifiedされた人たちのごくごく一部にはそう見えるらしいです.主な研究拠点が日本でトップの国際会議で見当たらないかららしいよ.知らんけど
*20:琴葉茜ちゃんによる読み上げが某所にありました.アカネチャンカワイイヤッター.
*21:損失函数が負の対数尤度でなくても経験損失最小化点推定という意味で等価.
*22:より直接的にかつAdCの趣旨に沿って言えば,そういった物言いはIQ1ということになります.
*23:これを広く使える情報量規準WAICといいます.