カイヤン雑記帳

カイヤンがやったことを書いておいたり、ぼやきたいことを書き込んだりする場所

IBIS2019参加記録

おはようございます,またはこんにちは,またはこんばんは.カイヤンです.

今回は国内最大の機械学習の学会であるIBIS2019の参加報告です.かんそうぶんてきなやつと,聴講記録メモを下記に記しています.

聴講メモ(長い)を含む目次は以下.

IBIS2019 参加報告

現地の様子

場所は名古屋で,G20との兼ね合いもあり駅ロッカーが封じられるといった事態が起きていました.ACML2019や若手会からの連続開催となっており,9日以上も名古屋に滞在していた方もいたようです.食事の名物が多いため食べ飽きることはありませんでした.

f:id:chijan:20191124232447j:plain
初日朝,名古屋着.

開催趣旨は「 拡散、浸透と深化 」.間違いなく機械学習が社会の中に広がり・染み渡ってきましたが,それは今日までの理論と方法の研究成果でした.そして深層学習の理論をはじめとした新たな基礎課題も認識されてきています.この背景の中で,今回の主要なセッションは理論的な方法あるいは理論そのものが中心となっており,これまで浸透してきたものの基礎が今日どうなっているかが発表されている形でした.逆に,社会応用の発表としては落合先生の招待講演が際立っていましたが内容については記事化不可の発表だったため控えます.

ポスターは240件(一日当たりおよそ120件)と非常に多く,発表時間もそのぶん3時間程度と例年より伸びていました.純粋に聴講だけをする参加となったため,どちらの日程でも気になった発表を深めに聞くことができました.例年よりも幾何的なアルゴリズム導出は減っているものの,理論の発表が減ったという印象はありませんでした.どちらかというと統計・学習理論的をベースとしたアルゴリズム提案が理論よりの発表では多めでした.完全な応用としては,聴講する時間はありませんでしたがポケモン画像連想システムのWebアプリデモというIBISとしてはかなり珍しいであろう発表形式のものがありました.

f:id:chijan:20191124232453j:plain
名古屋名物の一つ,矢場とん味噌カツ

かんそう

感想は上記以上に完全に主観なので折り畳みしておきます.参加し始めて4年目の若造がなんか言ってるってだけです.

カイヤンはIBISには2016年度から参加しており,今年で4回目です.しかし,これまでと異なり発表成果物を用意することが間に合わなかったため,初の純粋聴講となってしまいました.

発表しない側として聴講した感想ですが,やはり発表したかったという悔しさが第一に来ます.来年度はつくばらしいですが,リベンジできるように社Dとして研究を頑張っていきたいと思いました.純粋な聴講だったということに対しての感想は月並みですがこんなところです.

学会を聴講した感想としては,今年は昨年度以上に理論ある方法に寄っていて「IBISこわい」らしくてとてもよかったなと思いました.一方,テクニカルトラックを完全に廃したのは,論文が残っておらず発表媒体として個人でポスターを公開でもしない限りはせっかくの成果が散逸しやすいのではないかとも思いました.また,会場の雰囲気としてはIBIS2016~2018(年度が若いほど顕著)ではそこそこクリティカルな質問もしやすい雰囲気,すなわち下記ツイートの「理」に近かったのですが,今年は「工~医」っぽい感じになっていたなあとも思います.

機械学習が完全に工学に取り込まれてしまったのだとしたら,学習という問題に対して応用の有無を問わない興味駆動サイエンスしていきたい側としては非常に寂しいところです. そういえば,「機械学習工学」の企画セッションでも,「そもそも機械学習は工学じゃないか,とお考えでしょうが~(注:以下,機械学習工学は機械学習を使った工学という意味ではなく,ソフトウェア工学の観点から機械学習を扱う領域であるという説明が続く)」というお話がありました.今回の開催趣旨からしても,かなり社会に馴染んできて学術領域としても社会よりに急激になってきたということなのかもしれません.しかし,その中でこれまで培った理論と方法が役立っておりかつ新たな基礎課題(例:深層学習理論)も見つかっているという現状認識をして,今回のような理論と方法のセッション中心で開催していただいたのは慧眼と思います.

全体的な感想は上記のようなところですが,特別気になった発表としては,

  • Marc Deisenroth先生による招待講演(ガウス過程とベイズ推論の考え方が強化学習・data efficient learningにおいて重要であるという内容)
  • ポスター「2-007」(PACベイズ理論を輸送理論を用いてこれまで適用できなかった予測器にも使える理論としたという発表)
  • ポスター「2-086」(基本的なMCMC法であるメトロポリスヘイスティング法のチューニングで重要となる提案分布のステップサイズが特異学習理論・代数幾何学において重要な実対数閾値とゼータ函数で記述できることを証明したという発表)

がありました.特に目当ての発表だった「2-086」は特異学習理論の新たな応用の方向性を基礎づける内容でした.また,「2-007」は今日でPACベイズの研究を見れるとはと期待していきましたがVC理論が対象としていたようなNNのような予測器も取り扱えるPACベイズの拡張となっており,DLの理論作りにPACベイズ的なアプローチも可能になるのではないかと思える内容で,この2発表はとても印象に残りました(後者は受賞もしています).

他にも,VAEの相転移構造についての実験的・物理的考察(マクスウェルの悪魔など)や,圏論による統計的機械学習の整理という発表も気になりました.

以下,聴講記録メモです.

コンパクトかつ網羅的という点では、しましま先生のメモがおすすめです。

IBIS2019 聴講メモ

11/20

注意事項

会場飲食厳禁. 落合招待講演は記事化厳禁. Hinton中継講演は撮影厳禁. 録音と録画はどちらも厳禁.

opening

今回のポスター:240件程度.

Hinton先生はたまたまホンダ賞のために特別機で 来日する中,一日空いた日にIBISに中継講演してくれるそうな.

企画セッション1 機械学習離散数学

機械学習グラフ理論 梶野

形式言語とグラフ生成(分子とか).

なぜ形式言語をかんがえるのか? 分子グラフの生成モデルを学習したい,つまりサンプルがグラフとして与えられた時にその分布を推定したい. 問題になるのは,分布のサポート.例えば分子グラフならCは4本,Nは3本などの制約や, 物質として安定なものであるという制約が挙げられる.

計算機科学的には,ハード制約とソフト制約がある. ハード制約はルールベースで定式化可能なもの,ソフト制約は分子の安定性などはっきり定式化しにくいもの.

ハード制約は形式言語的アプローチで解ける,ソフトな部分を学習モデルでなんとかする. =>形式言語が大事になる.

形式言語 とは.文字列に対して定義される(ことが多い)概念.アルファベットなど文字の集合\Sigmaからそれで構成される文字列集合\Sigma^(任意長文字列)を考える.言語と呼べるのは\Sigma^のsubsetであるが,文法が紐づいているはずなので生成規則をルールとして与えて(文法を与えて)構成するものが形式言語である.つまり部分集合と「文法」からなる. 文字列のかわりにグラフを考えることで,同様の定式化ができる.ハード制約を満たすグラフの集合とそれを生成する文法を考えていきたい. 逆に,その文法を構成できればそれに従うことでハード制約を満足できる.

文法にもいくつか種類がある.

文脈自由文法CFG: 置き換えられる文字集合=non-terminals Vと置き換えられない文字集合terminal V, 生成ルール(文字列2文字列の写像)と最初の記号(Vの元)を用意する. 生成ルールはnon-terminalsを別の文字に置き換えるという操作であり,terminalが登場したら文字列が終わるようにしている.

ハイパーグラフ:エッジの意味を拡張(ハイパーエッジ)したもの. ハイパーエッジ:任意個のノードをつなぐことができる(通常は2つ) ハイパーグラフの生成を考えていく.

ハイパーグラフ生成はCFGで70年代序盤に提案されてきた.ハイパーエッジをハイパーグラフで置き換えていき,non-terminalなハイパーグラフが尽きたらやめるというルール(ハイパーエッジ置き換え文法HRG)

2016年にHRGを推論するアルゴリズムが提案された.つまりハイパーグラフ複数を受け取ってHRGから作る言語のsubsetを生成できるアルゴリズムである.ハイパーグラフの木分解(ハイパーグラフを木グラフになるように分解する)がカギとなる. 木分解の逆を行うようなHRGを構成する.つまり各サンプルを木分解して木分解結果のノードらをつなげるような生成ルールを抽出する. 各サンプルごとにルールが出てくるので最終的な出力はマージされたルール(に生成される言語)となる.

このようなアルゴリズムを分子グラフ生成に応用してみると,うまくいかない. というのも,普通の分子グラフはノードが原資である. HRGで何が保存される量なのか考察してみる必要がある. ハイパーエッジにおけるノードの数は保存される.ほしいのは各原子の結合数なので,分子を正しく生成するにはハイパーエッジが原子である必要がある(この発見が重要か). その場合,ノードから3本のハイパーエッジ(つまり原子)が生えているのはまずい.しかしこちらがうまくいきにくい(実験的事実). 価標についてはハイパーエッジにおけるノード数の条件なので文法から表現しやすい.

非冗長な木分解を使えばノードにくっつくハイパーエッジの本数が2つであるという条件を満足できることがわかった.これが発表者の成果. 理論保証付き:分子グラフとなるものを必ず生成できる! ※物質としての安定性についてはVAEなどの学習モデルでなんとかする.

VAEを使ってソフト制約も満たせそうなモデルを作ることができた. 分子最適化を学習で解くという応用もある.ナイーブには離散最適化の問題なのでVAEで連続表現を獲得して連続最適化(ベイズ最適化?)を使って解いてあげる.文法を用いないVAE,テキスト表現,分子の組み上げごと学習,と比較すると,文法を用いた表現を使ったVAEによる再構成損失の小ささや分子最適化の性能(目的関数を共通としてどれだけ大きくできるか)を見てみると,文法使うと強かった. 分子の組み上げ部分をルールベース(文法)に任せているため,学習コストも低くかつ性能が高いという結果.

まとめ: 制約条件をハードとソフトに分けて,ハードについては文法などルールベースでたたけるとうまくいくことが多いんじゃなかろうか.

Q&A
  • 木分解は一意じゃないけど変な生成規則を推論してしまわないか?
  • 列挙して評価しているが,計算コスト高くないか? すべてを列挙するのは大変だ.
    • (連続表現獲得後は?)ベイズ最適化を用いているので,列挙というよりクエリ数を少なめにするような最適化をしている.ただし,必ずしもうまくいくわけではないため今後の課題となっている.
  • 文脈自由文法が問題に対して表現力が強すぎる・弱すぎるという問題は考えているか? 探索空間の広さにかかわってくるが.
    • シクロが複数あるような分子の表現には文脈自由文法はあまり強くない(それら専用の文法がどんどん追加されてしまうため).
    • 文法の表現力そのものについての考察は70年代に研究がある.

機械学習と計算理論 関山

回帰によるRNNからの重み付きオートマトンを抽出する.

モチベーション: RNNは可変長データに強い.学習対象や挙動の把握が困難であり,学習や予測にかかる計算コストが高い. そこで,有限オートマトン(FA)を抽出することで問題を解決したい. FAは状態遷移が明らかなので,解釈しやすく,挙動解析方法も確立されている.また,計算コストもFAの方が小さいがちである. 96年にはRNNから決定論的なFAを生成する研究があった.最近だとNIPS2018で賢い方法が提案されている.

離散入力連続出力RNNから決定論的FAを抽出する方法があった.重み付きFA(WFA)を抽出する方法もある. 既存手法は抽出対象とRNNが似た表現をすることを実際にクエリに応答することで確認する必要があった. 提案手法では,表現の類似性を近似的に推測できるようにした(exactは難しいし,本研究のノーベルなところ).また,抽出WFAがRNNに対してどれだけ性能を近似できるかも考察した.

RNNを3つのコンポーネントに分けて考える.初期状態,最終状態を受け取って連続値を返す函数(最終層),中間における状態遷移函数WFA:各状態は初期・最終重みを持っている(重みの変化で考えるオートマトン).状態遷移にも重みがついている. 初期ベクトル,最終ベクトルを重みの集まりとして定義し,状態遷移の重みを返す函数を遷移函数として考える.

表現の類似性を近似的に推測:基本的には反例を探しまくる.「十分な探索」で反例が見つからなくなったらOKとする. ではどうやって反例を探すのか? 文字列で喩えると,初期空文字から文字を後ろに追加していくことで文字列集合を木で表現できる. 反例が存在するなら幅優先で見つかるが,効率があまりよくないのでそこも工夫する. 工夫:抽出したいWFAと抽出元のRNNに何らかの関係性があると仮定してみる. その関係性は,最終函数が等しいのだから最終状態も等しいはずだということ. 最終状態ベクトル間の距離が遠いところから探索していく.

「十分な探索」をしたという判定はどうするか? WFAの状態の空間において,すでに探索済みの反例でない点の近傍も反例ではないだろうことが推測されるのでそれを判定基準にする.近傍の探索は十分多くの回数,非反例が見つからなかったという結果を得ること(?) 十分多く,というかユーザが与える個数パラメータとするが.

WFAに置き換えることで1300倍早くなった.

Q&A
  • 元のRNNの次元は?
    • 50次元.
  • 20状態のWFAで長さ任意のRNNを表現できるって信じがたいが,直感的に説明するとどうなんだろ?
    • 抽出時間がアルファベットの集合サイズに依存するため,大きな実データ(NLP分野で使うようなやつとか)ではまだ実験できていない.
    • つまり,現在は小さいケースでの確認にとどまっているため本当に巨大なRNNが20状態で表現できるとか1300倍速いとかは不明.
  • WFAの状態数はアルゴリズムが決める?
    • 自分で与える.生成するやつだと2とか5の状態数で,学習時は20-30.(?)

機械学習と数え上げ組合せ論 杉山磨人

隣接代数と双対い平坦構造を用いた学習.

行列のバランス化:対角行列を左右からかけることで,行方向と列方向両方に対して和が1になるようにすること.double stochastic化. 非負行列についてはバランス化は定数倍を除いて一意であり,Sinkhorn-Knoppアルゴリズムという方法で探索できる. (すべての行と列のリスケールを繰り返す). エントロピー正則化された最適輸送,つまり最適輸送の近似となっている問題である.

本問題を情報幾何的に解釈することを考える. 左上からブロック行列を行・列を同時に1つずつ下げてとっていき,それぞれにおける各行・列の和をηとする(1,2,3,...という値をとる). θを(2,2)以下のブロック行列に対して対角成分の正対数,非対角成分の負対数の和として定義する. こうするとηとθが情報幾何の2重平坦構造を持つことが証明でき,自然勾配法ですぐ求められる. =>自然勾配法による行列のバランス化が可能,高速化(巨大行列で特に有効).

Incidence Algebra=隣接代数:半順序集合における閉区間上の函数の代数. 和f+gはf(a,b)+g(a,b),積fgは畳み込みsum_x f(a,x)g(x,b).畳み込みは行列積みたいなもん. デルタ函数単位元,ゼータ函数積分ライクな函数),メビウス函数微分ライク),という子たちがいる. メビウス反転公式: 例として,和集合の要素数公式とか,割り切れることによる半順序からメビウス函数でリーマンゼータを表現できる.

半順序集合上の対数線型モデルを考えてみる.確率モデル: p. メビウス函数とゼータ函数からθとηを定義する(お気持ち:log pの微分をθ,pの積分をηとする). この定義だと,指数型分布族における自然パラメータθ,期待値パラメータηに合致する. バイナリ対数線型モデル=ボルツマンマシンが一番有名か.べき集合の包含による半順序集合上で対数線型モデルを考える.

対数線型モデルに二重平坦構造が入っていることを確認する. 函数ψを分配函数,φをそのルジャンドル変換とすると,二重平坦構造になっているし, θとηの直交も確認できる.

この話の面白いところは,混合座標系にある. 混合座標系とは,分布P,Q,Rのパラメータを2つのたがいに素な順序対に分ける. すると,KL(P,R)=KL(P,Q)+KL(Q,R)が一意なQについて成り立つ. 例えば,一様分布から経験分布までのKLを上記のKLの意味で分割するQが(最尤法の)学習結果の予測分布として得られる,など. 多くのMLの問題は混合座標系に落とし込めるということ.勾配降下,自然勾配で解けるほか,座標勾配という方法も考えた(ポスター).

4ノード全結合ボルツマンマシンを考えてみる.全状態を2^{a,b,c,d}の包含半順序集合に対応させると, パラメータがあるパートとないパートに別れ,それらがθとη(逆かも?)に対応させることができる. (ないパートは =0 として固定する). テンソルに半順序を入れると高速なテンソル分解が作れたりもする(NIPS2018).

ここまでは観測変数のみのモデルだった. 隠れ変数のあるボルツマンマシンも扱える.隠れ変数を入れるとナイーブなηを計算できない. やりたいことは同じだが,EM法による非凸最適化になってしまう(悲しいことが起きやすいね).従来はEMでやっていた. これはモデルに隠れ変数を導入するからであり,状態に隠れ状態をいれればよい(隠れ変数ノードをやめるということ). すると,凸最適化のまま問題を解くことができる. Blind Source Separationというタスクも使えるらしい.

ホモロジーとの関係:順序付き複体のオイラー票数がメビウス函数の値に合致する. つまりメビウス函数を使ってモデルを作るということはパラメータ空間の位相的性質を使っていると解釈できる?(まだ研究途上) スライド:https://mahito.nii.ac.jp/

Q&A
  • モデルに隠れ変数をいれるのと状態につまりlatticeに隠れノードいれるのと何が違うのかというのはあるのか.
    • 実験的検証はしているが,多少latticeに隠れノードをいれるほうがよいことがある.
  • 隠れノードをlatticeの下側にいれているのだが,それはどういうことなのか直感はないか.
    • まだよくわかっていない.
  • イイ感じの半順序構造があるとうまくいくという話だが,半順序構造自体をうまく定義orイイ感じのものを選ぶのは難しいのでは.
    • 難しい.そこの設計は今後の課題となっているところであり,ある種のモデル選択のようなことになっている.

招待講演1

Data efficient RL for autonomous robot (Marc Deisenorth).

autonomous robotのための学習=>Fast learning and automatic adaptation.. Currently: Data-hungry learning or human guidance. Real-life situation: little data, fast autonomous and decision making.

For data-efficient RL:

  • Model based RL
  • Model predictive RL
  • Meta learning

Today controller is feedback controller.

 x_t+1 = f(x_t, u_t) + noise,

where 制御入力 u_t = policy(x_t, \theta) and  \theta is policy parameters. Expected long-term costを最小化するようにθを見つけるのがcontroller learning. 最適制御,強化学習の典型的問題.

システム同定して,long-term prediction of state計算・最小化して,コントローラに適用する.

Model learning = System identification: find function y=f(x).

Predicted model has error thus we must express uncertainity.

今まで早くても分単位かかっていたのが15秒とかで学習できるようになった.

ここまではモデルベースな確率制御だった. さて,実世界では安全性制約がある. 方策パラメータではなく制御入力を直接最適化するような方法を作った. 最適化するパラメータは非常に少ない(探索空間が低次元). Open-loop controlだとモデルの精度が低くてダメ. モデル予測制御をすることでclosed loop controlを実現する. 具体的にはGauss過程(GP)をtransition dynamicsのために学習する. GPを逐次推定する.これはモーメントマッチングにより決定的にできる. 40%少ないデータ数ででよく,かつパラメータを推定するcontrollerより精度が低いことに対してロバストである. 局所解にはまるとコケる.

未知の関連タスクに対する既存知識の一般化のためにメタ学習アプローチについて述べる. (あるロボットアームの制御問題は別のロボットアームと関連しているがcontrollerの直接適用は難しい). GlobalとTask-specificな特徴に分ける.Globalパラメータをシェアし,task-specificなものは隠れ変数とする. オンライン変分推論,Few-shot model-based RL. いずれにおいても,Key to successは確率モデリングベイズ推論.

おまけ:コストのサチり方に対する自然な探索:

  • 状態学習の初期は状態予測機械はターゲットから遠いので探索重視
  • 終盤は近い
Q&A(聞き取れた範囲)
  • DLの話はないの?
    • activation functionなどでいろいろ結果変わるし,外挿に向いていないため実世界の函数を回帰するのにDLは向いていないのではなかろうか.低次元パラメータに帰着させてGPなどベイズ回帰のアプローチが望ましいと思う.

その他,GPによる長期予測についてとかの質疑があった(しましま先生のまとめ見るか).

招待(というか中継)講演2

Youtube生放送.

CNNの話っぽい.

invariantさよりequivalentさが大事.

CNNには現状いくつか問題がある.

  • 一つ,画像に何が写っているか直接理解しているわけではないという画像パース問題.
  • 一つ,敵対的サンプルによる誤分類.我々とは異なる形で物体を検出しているため,あるノイズをのせると物体クラスを間違える.
  • 一つ,Coincidence filtering: 多くの科学はcoincidenceに依存しているが,現状のニューロンからはそれは見つからない.
  • 一つ,座標フレームを使っていない;心理学実験により人類は形状表現のために座標フレームを使っているそうだ.座標を使って形状表現するとは,立方体の認識をするときに頂点の位置関係を座標的に理解しているようなもの(?)
  • 一つ,だいたい表現.とても似ているrodsを非常に異なる方法で表現してしまう.(40年前の論文の画像を使って説明している)人間は形状表現をジェスチャするときにその時々に応じて適切な大きさでジェスチャできる(?).

(以下からついていけなくなってきた)

正しい画像表現の心理学理論 画像表現は木構造の説明を持つべきである. CVはCGの逆変換,より高レベルの表現はCGで使われてるものに似てくるものだ.

Capsule 2019: Stacked Capsule Auto-Encoders. Previous version: 識別モデル.局所特徴を行列で表現. 2019 version: 教師無しモデル.大域(whole)特徴を行列で表現. Capsule=カプセル

後半は上記のStacked Capsule AEについての説明か. https://twitter.com/shima_shima/status/1197044168234655745?s=19 がわかりやすそう.

ポスターメモ 1日目

聞いた発表

11/21

企画セッション2 データ駆動科学と機械学習

サンプリングによるデータ駆動科学 福島

データ科学:たくさんとれるデータを科学する データ駆動科学:これまでの科学における仮説検証ループを効率化できないか?

データ科学なのかデータ駆動科学なのか:言葉としては重要ではない. 自然科学データが高次元・高精度になってきている.

獲得したデータから根源的な構造を推定するのか,根源はどうでもいいので機能が欲しい.

  • 例:超電導が起きる温度をDLで探す

一方,根源的な理屈がわかれば機能がわかるのかは非自明になってきた.機械学習モデルに物理法則を組み込む方がいいのかどうかもわからない.

データが科学を駆動できるかどうかがデータ駆動科学が生き残れるかで重要となる.

  • Case1: 物質中の原子の位置をスパース推定して,穴(原子がないと推定された場所)が見つかったら再実験,という仮説検証ループ
  • Case2: (写し損ねましたorz)
  • Case3: ハミルトニアンを実験データから再構成.つまり実験データからミニマルな物理モデルを再構成・パラメータ推定をする.ノイズ推定をしないと不確実性がわからないため,サンプリングが重要だった.その不定性の物理的意味を考察したくなる,という形でデータが物理を駆動する.

今回は一番簡単な場合として線型方程式を考える.y=Ax+\epsilonで,yとAが観測されていて信号源xを推定したい. 逆温度=ノイズの強さがのったガウス型のベイズ推論をする.

将来的には線型から非線形,単峰から多峰分布へ対応する必要があるため,勾配ベースでは局所解しかわからない問題がある. MAP推定ではなく,規格化定数も求めたい.大規模計算の問題もある. MCMCを使いたい.

少し前から方法は作っていた:population annealing(PA). 定常分布における粒子フィルタに相当し,並列化に向いていて規格化定数も重みからすぐ計算できる.

シミュレーテッドアニーリングでは解けない(正しいサンプリングになっていない)が, PAならエネルギー推定もノイズ推定もうまくできる. ノイズがあるので最適化してはいけない(overfitを引き起こす).

第一原理電子状態計算の解析.物質科学での第一原理計算は,物質の電子状態を知る理論的方法として広く使われている. 例えば,磁性薄膜(金と鉄)を酸化マグネシウム上に作るという場合,金と鉄の配置で物性が大きく異なるという状況が知られている. 結晶磁気異方性(MCA)は組合せに激しく依存する.MCAが大きくなる時がどういう時か知りたい. 鉄と金の現れ方をプラマイ1の列で表し,それらの1体~6体の相関を説明変数として線型回帰する. 全数探索は難しいので,PAによるサンプリングで計算.境界層に鉄を置くとMCAが大きくなりそうという結果が得られた.

まとめると

  • 深く程度の評価のためにサンプリングが必要
  • 一つの便利な方法としてPAがある(が,MCMCほど性能評価理論はない).大規模並列計算と相性よし.
  • 次のデータの取得も重要.
Q&A
  • MCAの話,アウトプットのデータをとるのが大変?
    • 電子状態計算が重たいので難しい.なので6体相関までしか得られていない.
  • 実験値とのフィットを見ている?
    • 第一原理計算としてやっているのは数値実験で,それも上述のように難しい.そしてリアル実験はもっともっと大変で,数値実験で良い条件を見つけてリアル実験をしてもらうのがコスト的に現実的.
  • 計算機シミュレーションを使って物理的な原理を見つけた例はある?
    • 物理モデルを見つけたという例はなく,むしろモデルは決まっている.ただ,実際に解いてみた結果が非自明で興味深いということがたくさんあった.(原理がわかっているから解けばいいと思ったが,現状のモデルと計算結果の対応を説明するものがほしい?)

データ駆動科学から見た物質科学 安藤

物理(計算物理)から情報科学と物質科学の融合領域にやってきた. 第一原理計算から情報科学に至った経緯は,シミュレーション結果の効率的な解析技術の習得が必須となったため. 現代的なマシンでは大規模なシミュレーションができるがそれだけ結果も複雑にふるまうため,見た目を観察し続けるというのは不毛.

材料開発国家目標の達成とイノベーションインフラの構築をなしとげたMaterials Genome Intiativeが情報科学ブームの火付け役だった.

物質・材料科学は,ものつくりそのものが目的というよりは製品の原材料を研究する 材料科学は良い材料を見つける発見と探索の科学,物質科学はその材料の物性を調べたくなる立場.

情報的な視点から見た物質科学の特徴:

  • データ取得コストが高く,サンプルサイズが少ない(スモールデータ).100あれば大きい.1つとるのに1週間の精密な測定をする.データの信頼度は高い.
  • 汎用的な処理方法が存在していない.スケールが9ケタレベルで違うし,対象となる物質も高分子,半導体,金属といずれもモノが違いすぎる.各論的にやるしかない.

第一原理計算の結果であれば,時間をかければデータを自動的にとり続けるというバッチ処理ができる. リアル実験となるとそうもいかないため,実験においてデータを一度にたくさん・短い時間で十分な情報をとることも重要な研究となるし, 逆にデータを追加でとってくるということがとても難しい. 計算データを計測データにフィットさせるという研究もある(専門家のカンを再現できるようにする).

データがとりにくいため,精度は出にくい.高級なことができなくても,手元のデータで何かしなくてはいけないという状況になっている.

表面化学反応のシミュレーションは第一原理計算で電子を考えないといけないため大変難しい. 少しでも簡単にしたいため,原子ポテンシャルをフィットさせた学習モデル(NN)を作りたいという課題が95年からあった.

NNフィッティングには特徴量設計と原子の3次元配置の入力にしたときの問題が起きていた. キーワードは入力表現,汎用性,対称性.

これらを工夫したものとして,原子1つ1つにNNを与える方法ができた(追加の原子が来ても入力可能). 原子種ごとに同じNNを使うことで対称性も考慮できる.

さて,機械学習を使えるようにするという論文は出てきているが,それらを実際に使って物質科学するというのが本題. 現状は結晶に対してモデルが作られがちなので,アモルファスとかは大きな課題である. イオンの経路推定も難しいし,そもそも計算科学のためのアモルファス構造作成が大変. 機械学習を使ったら計算コストを減らすことができた.

シンプルなモデルでも大きな結果が出せる分野になっている. 実験研究者はピーク推定のために非線形最小二乗ソフトにデータを1つ1つアプライして初期値を職人芸でいじっていた. 全データをまとめてクラスタリングするだけでも「革命的」なピーク推定ができるようになった.

今後としては,計測と計算による近代的な物質科学だけでなく,MLを使ったりなどなど情報分野をもっと取り込んでいきたい.

Q&A
  • シミュレーション結果にフィットさせて実験結果を説明できるのか?
    • 確かに第一原理計算は簡単な場合しか扱えないため系統誤差が乗る可能性はある.うまいシミュレーションを作る必要がある.
  • 可視化にそもそもMLを使う必要ある?
    • 不要なことはありえる.原子間の距離を見ればいいだけといえばそう.
  • 誤差の扱い.
    • シミュレーションで生じる誤差については数値不安定になったときに賢く計算しなおすことができる方法が現在はある.知りたいターゲットの誤差評価方法が物理学的な視点であるので,そのあたりで良いモデルを作っていく.
  • データが少ないときのMLの結果を信頼できるの?
    • MLで候補を絞って第一原理計算でvalidateするという方法をとっている.

集団運動とデータ駆動科学

ヒトの集団運動を扱う.原理理解と応用技術の開発を目指している.

集団運動:往来の歩行者,子供の遊び,集団でやるスポーツ,イワシの群れなどの動物行動 社会的相互作用や協力的問題解決の原理解明,およびこれらの評価や予測などの応用技術は未発達だった. ミクロな集団運動は分子シミュレーションである.

要素間の相互作用の規則が不明なので,モデリングにおいてその構造が利用できないため,データから駆動してあげたい.

集団行動の理解方法として物理的な動的システムとしての理解が挙げられる. しかし,システムを記述する函数が未知なこともある.

マルチスケールなつまりラボ環境でやるような組織ベースのモデルは多いが,実社会規模ではデータしかないことが多い. データ駆動科学の出番ではなかろうか? データ駆動:方程式フリー,モデル駆動:方程式ベース.前者は複雑なところでやりやすいが理解が難しく,後者は逆である.

従来の経験ロリンに基づく特徴作成・データ解析やルールに基づくモデル化,これに対して今日のデータから特徴やモデルを見つけるという話をしていく.

個体の位置情報を入力していく状況を考える(画像から読み取る話もある). 角度,距離,測度,ネットワーク性,フラクタル性などを手作り特徴量として食わせる. スモールデータに使いやすいが,複雑なモデルの記述は難しい. ルールからモデルを作るのも理解しやすいがルール外の複雑な動きを説明できるモデルにはなりえない.

データから特徴抽出するアプローチは,教師なし的なクラスタリング,個体特徴の分類やスポーツ勝敗の分類とか. スコア回帰やチームの軌道生成,ということが従来的.これはMLのよくある問題に落とし込むというアプローチである.

集団運動の理解が目的という点では,データ駆動的なモデル化をしたい. つまり集団運動モデル(非線形動的システム)のパラメータや規則を計測データから学習する.

データモード分解(DMD).クープマン作用素のスペクトル分析(クープマンモード分解)を背景としており, 非線形動的システムの解析を線型に取り扱うというものである. グラフDMD:背後の力学系を行列値函数として観測,観測行列を隣接行列として集団行動(~背後の非線形動的システム)の理解につなげる.

集団運動の再現という点では,Agentをモデル化して軌道予測などの性能を向上させた.

Q&A
  • こどもおゆうぎはゲームのルールもないので大変なのでは?
    • 大変.ルールのあるゲームであるスポーツでもプレイヤーがこどもだと自由なのでかなり大変,プロだと定跡などある程度まともな動きをするしデータも多いので研究しやすい.

ポスターメモ 2日目

聞いた発表

  • メトロポリス法の採択率の代数幾何学的理論解析
  • 3層(2層)NNの識別汎化誤差の大域収束性,非過剰パラメータ条件下でOK
  • HSIC lassoの改良による特徴量選択
  • 圏論多様体仮設による統計的機械学習の定式化と考察
  • PAC-Bayesを決定論的な予測器にも適用するための輸送問題

招待講演 落合

記事化禁止のため略.

11/22

企画セッション3 深層学習の理論

DLは基盤となるべき理論がない.実減少と橋渡しするものはあるがまだまだ拡張が必要.

汎化誤差の構成要素,特定の構造という点について扱う.

  • 近似誤差・複雑性誤差:今泉
  • 最適化誤差:二反田
  • 特定構造として群対称性:三内

深層学習の理論:近似誤差と複雑性誤差 今泉

近似誤差は函数近似理論としての誤差.表現力のターム. 複雑性誤差はいわゆる汎化ギャップのターム.

近似レート:パラメータ数を増やしたときに何乗の速さで近似誤差が減るか. 活性化函数が滑らかだと,ノードごとの多項式近似を足し合わせる.非滑らかな場合は区分線型函数多項式近似をしている. このぶんのズレで非滑らかな活性化函数だと近似レートが若干悪化する.

滑らかな函数近似ではフーリエ基底などほかの函数近似でも同じレートが達成できるが, 区分的に滑らかな or 不均一な滑らかさを持つ函数(Besov函数空間の元)の近似については,DNNが勝つ. また,滑らかな函数クラスでも低次元の特徴量マップを合成する場合の函数近似レートもDNNが優越する(低次元:入力次元未満の多様体フラクタル).

上記理論は5層,10層などで成り立ってしまうため,100層が10層より良いことを説明するのは難しい. この意味で実現象と距離がある.

複雑性誤差は汎化ギャップ.学習済みパラメータというよりパラメータ空間における一様な収束誤差を考えているのが通常. 汎化誤差は期待値なので,学習済みパラメータ一点だけを考えるのは不適切なため,取りうるすべてのパラメータを考える必要がある. しかしこの既存理論ではパラメータ次元が高いほど汎化ギャップは増大する.仮に汎化ギャップが小さいとすると近似誤差は増大しているということになってしまう.実はパラメータ空間の一部だけ考えればよいのでは? 一部というのは取りうるデータに依存しており,逆に言えば取りうるデータ全体を考えてもパラメータ空間全体を考える必要はないのではという仮説がある.

ではこのデータに依存したパラメータsubsetは何で決まるのか? これはわかっておらず,ノルム制約(ノルムが十分小さい),学習アルゴリズム依存,正則化の効果,といったものが考えられている. 例えばノルム制約は原点周りのボールしか学習されないという場合の複雑性誤差がボールの大きさ依存で書ける(パラメータ次元がそのまま出てこない).ノルムが小さいときに複雑性誤差が小さくなることは理論的に示せた,がいつノルムが小さくなるのかは不明. 学習アルゴリズムの影響については,学習率の調整によって探索される範囲が狭くなる(パラメータ空間全体を考える必要がなくなる)という考え方.自然な反論として,学習が進んでいないから汎化ギャップが小さいだけで近似誤差や最適化誤差は大きいままなのではないかというものがある(実験的に反論がなされている論文もある). 正則化については本講演では説明しない.

Q&A
  • 構造の異なるデータを与えて汎化ギャップの動きを実験するというものがあったが,異なるとは?
    • 実データと,ラベルがめちゃくちゃなデータということ.

深層学習の理論:最適化誤差

大域収束性を非凸でも示したい,という話.

局所解にはまるということが非凸では問題となるが,DNNの損失では局所解がすべて最適解かつ鞍点はstrictになっているのではないかという考え方がある.既存理論は人工的すぎる条件だったため,実際に使う最適化アルゴリズム自体を考察する必要が出てきた.

帰納的バイアス:学習の条件により本質的に学習ダイナミクスと収束先が決まる. 帰納的バイアスによる汎化=陰的正則化

大域収束性を示すときに本質的なのは2層(ユニット3層,変換2回)の場合なのでそこにフォーカスする. そこでカギとなるのがニューラルタンジェントカーネルNTK. NTKは最適化中に帰納的バイアスが満たされるようなものになっている(大域解にたどり着くまで最適化が進み続けてくれる). 早期終了による汎化も説明できる状況である.

入力層の学習(非凸部分)平均場regimeとNTKregimeに帰着され,帰納的バイアスはそれぞれワッサースタイン勾配流,RKHSでの勾配法になる. 両層学習の場合,出力層のパラメータの初期化スケールによって入力層と出力層どちらが多く学習されるかが切り替わる.

ここまでは回帰問題の設定つまり二乗損失を考えていたが,識別問題の場合は期待識別誤差の最小化をする. このときは,サンプルサイズに対して(6乗など非現実的な)過剰なパラメータがなくても大域収束することが示せる.

出力層の学習はカーネル法と同様な凸最適化になる(理論もたくさんある)が,早い収束性を強低ノイズ条件での識別誤差について示した. 平均場regimeつまり出力層の初期値は均一でスケールはユニット数の逆数とする.このとき粒子勾配降下法という速いやつを導ける(?) また,SGDがユニット数無限の極限において輸送写像としての確率測度の最適化になっていることを示せた.

Active regimeというものもある.NTKregimeの要因は微小なパラメータ変化で函数を十分に動かせる(lazy training)というものだが,これが成り立たない場合ではパラメータのスパース性を生かしたダイナミクスで収束することが示せる. NTKはカーネル法的なものなので,スパース性を生かすことができないという問題がある.

Q&A
  • より一般的な非凸最適化の大域収束性を示す場合にこれらの研究は応用できるか?
    • 条件が合えばできる.実際,輸送写像による最適化の話はNNを特殊ケースで含むような形である.
  • 平均場regimeとActive regimeの関係は?
    • それぞれ異なるダイナミクスを持つ.(NTK regimeではないものの代表的な例ということで挙げた)

深層学習の理論:特定構造=群対称性

画像,系列,グラフに対してそれぞれCNN,RNN,GNNを使うということが多い. タスクに数学的分類ができないだろうか? 何か「対称性」からモデルを与えられないだろうか? タスクを数学的に分類すると,人間が画像とか系列とかを判断してCNNやRNNを作っていたところを自動化したり, 転移学習に活かせるかもしれないという期待がある.

ここでは群対称性のあるタスクを考えていく. 同変性のあるタスク:仲間外れとなる画像を探すのは写真の順番が本来関係ない.このようなタスク.機械視点だと変わってしまう. 不変性のあるタスク:点群は機械に食わせるために点の順番を与えるが,点群で表す物体が何かは順番に依存しないはずである.

点群はわかりやすい例がある.点の順番は置換群,回転は回転群SO(3),一般に可逆な線形変換は一般化線型群. 今回重要となるのは対称群という概念.置換群の部分群.

同変: 同変の定義はf:Rm -> Rm写像についてf(g(x_1),...,g(x_M))=(g(f(x_1)),...,g(f(x_M))). 置換同変な層を重ねた深層NNを同変深層NNという. 同変深層学習では同変な函数がDNNとして得られるため,同変性のあるタスクにおける精度をナイーヴな条件より改善できる. (構成から万能近似能力が同変函数に対して自明にならないため,別途近似能力を証明した.下記の不変性の場合に帰着させる) (同変函数の表現定理を証明中で用いる)

不変: コルモゴロフ=アノルドの表現定理による連続函数表現がある. これを使ったNNを作りたい.表現定理ではfという函数をφ,ρという2つの函数を使って線型結合と合成的に表現する. これを用いると不変性を表現しやすくなるため,この表示によるNNを作りたい. 具体的にはφとρを表すNNを作って数式と合うように組みなおす. これにより,不変性を持つNNを作ることができる.これは構成から不変性のある函数に対する万能近似能力がすぐわかる.

不変テンソルネットワークについても部分群の作用を用いて表すことができ,万能近似能力が証明できる. また,汎化能力評価(汎化ギャップのバウンド)も与えられた.

企画セッション4 機械学習工学

機械学習工学=ソフトウェア工学 for 機械学習

昔から薬師が薬を調合してきたが,化学工学の発展により安全な薬を大量生産できるようになった. 機械学習の社会実装でも必要ではないだろうか,という問題提起がある.機械学習はソフトウェアとして提供されることを考えると,ソフトウェア工学の考え方(品質管理,保守性など)が役立つはずである.

機械学習に対するソフトウェア工学の技術動向

上記の機械学習工学を研究領域として立ち上げたのはかなり新しい. システムをどう作るかというワークショップがNIPSにあったりする.参加者は企業の人が多い.

統計的な振る舞いを知らないとやっていけないのでソフトウェア工学畑の純粋subsetとしてはやっていられないので,MLの人も参入してほしい.

要求工学:ユーザや発注者のゴールを作り出す方法・工学.定式化をしたい.

ソフトウェア工学にはチーム構成や日々のコミュニケーションなども扱う対象. 従来のソフトウェアは要求・仕様書とプログラムを対応つけやすいものとなっている(還元主義的にとらえやすい)が, MLを組み込むとそうもいかない.境界が不明確,動作規則が不明確,という状況になる. テストの作りこみ,工数見積もりが従来のようにはできないという問題を抱えることになる.

準委任の一緒にがんばるという契約をすることが多い.というのも,精度がどれだけ出るかはやってみないとわからないし,後出し文句を言いやすい場合がある. つまり,PoCで止まってしまうことが多い. ソフトウェアはアップデート・メンテが8割とも言えるが,MLは特に多い.入力の傾向が変わるとすべてが変わる可能性がある.

テストはそもそも不可能.正解を決めるのが難しく,テスト性能が低くてもバグが原因と判断することはできない. 単体テストによる問題分解は意味がなく,想定カバレッジは100%になりえない(100%を定義できない). コードそのもののカバレッジは陽な分岐がすぐ出尽くして問題が見つからない.

メタモルフィックテスティング:結合テストを条件を変えて繰り返すことで正解ルールを導き出す.青をdetectするアルゴリズムは赤にデータを置き換えた時にdetectできるか,など. サーチベースドテスティング:最適化(メタヒューリスティック)を用いてテストケース・テストスイートの欲しさスコアを最大化するようなテストを生成する.

MLモデルだけでなく,それを組み込んだシステム全体でみる必要がある. モデルがうまくいかないケースがシステムの入力としてクリティカルとは限らないため. システムとしてモデルがダメな時にしくじりかつモデルが「完璧」なときうまくいく時に限ってテスト・物理シミュレーションを行うという話が自動運転とかだとある. 良い負例が何かというものをヒューリスティックスにうまく見つけてあげるというデバッグ方法が提案されている(追加データをどうすればよいかを示せる).

Q&A
  • モデルのあら捜しって結局何をverifyしてるの? アラがないなんてありえないし.
    • モデルのロバスト性をverifyしたいが,全数検査できないため出てきたケースをつぶすという形.
  • 形式検証技術として感度分析的なことをしているが,リージョンを用意するのが難しいような.
    • 詳細は論文読んでほしい.厳密なリージョンを見つけることはやっていないが,多面体で範囲を近似している.

機械学習知財・契約

経産省の「AI・データ契約ガイドライン」の検討委員.このときの検討の話もする. モデル・AI開発契約をするときにユーザとベンダ間で何が問題になるか.

顧客データを受領する場合や収集からやる場合があるが,収集というフェーズは必ずある.データそのものの規制や知財のクリアが問題となる. 次に収集データを用いて開発を行うが,モデルの精度保証の他に,知財で何が守れるかという点が問題になる. 開発したものを展開するときの思わぬ価値やまずいことがあったときの対応も開発契約と利用契約の両方が重要となる.

収集: データの種類と収集方法でどんな規制がつくかが決まると考えればよい. 規制そのものの種類は,法規制と契約規制である.両方ある場合もあるし,ない場合もある. 種類は個人情報,著作物,肖像権,事実を示すデータ(創作者がいるわけではない),センサーデータ(知財保護不可能)といったものがある. 取得方法は自ら容易,データ利用契約(用途が決まることがある)に基づき/基づかず収集,ネット上で収集. 上記,特に問題になるのは個人情報と著作権.第三者提供には本人同意が必要となることが多いため,委託により第三者じゃなくしたり匿名化などなどで処理する必要がある. 情報解析については日本の著作権法30-4によって著作権者の同意なく複製が可能となっている(他国は非営利限定がち). 学習に使う計算機が日本国内にあれば,著作権者の国籍に依存せずに著作権法30-4が適用されるので営利利用できる.

開発: 通常のシステム開発と異なり,複数の材料,中間成果物,成果物,が関わってくる上に横展開可能なのでユーザもベンダも独占したくなる. ノウハウも生まれることがあり,それも開発フェーズにおける中間生成物の一つとなる. ユーザは権利譲渡を求めるが,ベンダは自分らの工数を割いた成果物であるため横展開したくなる. 何が知財になるのかならないのかを知っておき,法的にはどちらのものなのかというのを把握しておく必要がある.

デフォルトルールでは,特許でも著作権でも守れないが,不正競争防止法で守れるというケースがある. 学習済みパラメータは著作物ではないため,不正競争防止法によって保護される(創作性がなくとも営業上の価値がありかつ秘密管理されている非公表の内容). 学習済みモデルという言葉の定義は数理モデルの意味,保存パラメータ,プログラムなどいろいろな意味で使われるが,推論プログラムと学習済みパラメータのこととして扱うなど契約時に定義を明確化しておく必要がある.経産省ガイドラインではこの定義. これはデフォルトケースであるため,それを契約で調整するのが実際的な状況である.

展開: 思わぬ価値が生まれることがあるため,作って終わりの契約にしないことは双方に価値があることがある. 展開方法の検討や交渉を徹底してから開発・利用契約の交渉ということになる(後者からやるとうまくいかない). 展開パターンの例として,事業領域で分ける場合,ユーザ利用の場合にのみ限って展開させるパターン,縛りがないパターン,ユーザにすべて渡すパターンがある.実際的には,権利貴族というより利用条件の調整という落としどころにすると,双方が合理的にビジネス展開できる(交渉労力も削減できる).極論,モデルの第三者提供を含めて制限なく利用できる場合だと実質的にはモデルの権利を保有していることになる. 極論は無体なプログラム・モデルであるからこそできる話.権利帰属を共有とし,かつ利用条件を決める(共有のみだと利用時に毎回双方の合意が必要となる).

なお,特許については独占していないと申請できないため注意.また,譲渡先がつぶれると誰も使えなくなることがあるためこのパターンはリスクになる(よくあることではないが).

Q&A
  • 著作権法30-4の情報解析は非復元を前提としている?
    • 前提としていない.
  • 復元できちゃう生成モデルだと著作権侵害
    • 元データは有限なデータであるはず.作風は著作物ではないので侵害とならないが,元データとほぼ同じものが出てきた場合は侵害となる場合がある.
    • 後者について,侵害者が誰なのかはまだまだ議論が分かれており,そもそも侵害なのかということも不定
    • 偶然性がある場合は侵害にならないため,学習済みパラメータに一度変換されてしまっている場合は偶然性で説明できるのではないかと講演者の弁護士は考えている.
  • 位置情報利用を現状利用するにはどうすれば?
    • 問題になるのは個人情報である.特定不能な集団の位置情報だと個人情報じゃないが,個人の位置情報は個人情報として保護されているので気を付ける必要がある(専門家に相談すると良い).

継続的改善を続けるための機械学習基盤の課題

データがモデルの振る舞いを決めるため,確率的な振る舞いをするシステムになってしまうことが問題の難しさ. 振る舞いを正確に予見できれば機械学習が要らないため,本質的な問題になる. 入力データの質やトレンドが変わることで振る舞いが変わってしまうことで予測性能が落ちることがある.

プロトタイプからプロダクションクオリティのコードを書ける人はなかなかいないため, 楽に隠蔽してプロダクションに組み込むためにどうするかというのがML Opsである.

モデル作成の再現ができて,誰にも聞かなくても動かせるものであるべきである. このためにはデータとモデルのバージョン管理が必要である.Uberがサービス出してる. また,実験の追跡も重要である.実験条件と入力,そして得られる結果の対応が管理されている必要がある. 再現性はコンテナを使うというのが一般的.

テストという点では,データの確認も重要である.trainとtestの分布が同じことを仮定するので,実入力がtrainが満たす仮定を満足できるのかという点をチェックする方法が提案されている. 経験分布のKLとかを見たりする.データが変か,スキーマが変かを判定できるので有用.

モデルとデータの説明が要求されることがあり,これはモデルのデプロイをするときに納得感のあるモデルかどうかというのを考えるために人間が介在する.納得感という点では,公平性の問題も抱えうる.

通常の機械学習実験ではモデルの性能を見るが,デプロイしたときに推論時間が遅いとクリック数がかえって減ってしまうということが起きる. 学習済みモデルを立ち上げて予測するということにかかる時間を下げるために,モデルの軽量化(スパース化)などいろいろな工夫も考える必要がある.

招待講演 竹村

日本におけるデータサイエンスの現状と今後

今日のスライドは滋賀大DS学部の宣伝みたいなところもあるので注意.

DSの必要性とそのための資源としてのデータ,DS教育する滋賀大モデルについて,それからDSについていろいろ,という構成.

DSの3要素:処理と分析と価値(領域知識).日本は分析~統計が欠落することが多い(統計学部なかったし). アメリカなどでは統計学・生物統計学の学部がたくさん設置されているのに対し,日本では滋賀大DS学部まではISMの院しかなく,学部はゼロ. 年間,アメリカでは4000人の統計修士が生まれているが日本では二ケタ少ない(人口比じゃないね). アメリGAFA,中国BAT(バイド,アリババ,テンセント),…….

政府はDSが必要だとようやく叫び始めたが,10年前に言うべきだった.ようやく日本が遅れてることが認識されたのだが遅すぎた. なんかいろいろAI戦略とか叫んでいるが …….

ビッグデータ時代を後押ししたのはスマートフォン.それを支える5G・LPWAによる通信の時代がやってきつつある. GPS情報,ポイントカード,交通系ICカード,これらもデータをたくさん生み出している. GPS精度は人工衛星4基体制により大きく上がることになった(誤差数cmレベル). これらのデータを分析して価値創造することが重要というのはバブルとは考えにくく,ビッグデータは21Cの石油(新たな資源)ではないかと言われつつある. 日本はWebでは勝てそうもないが,製造業の競争力維持は至上命題.

滋賀大DS学部では手を動かすことに重きを置いた情報系講義,種々の統計系講義,そしてB1から実データを触る演習系講義の3本柱を進めている. 演習系講義では企業からデータをもらっている.答えのない実データ分析の教材作りをするのは難しいため,企業の協力が必須であった.

ここからはビッグデータとデータサイエンスの諸側面について.

まずデータ分析による価値創造について,基本的には課題が先でそのためにデータを取るというものがある.機械的にデータがとれる時代になってきたため,データから課題と知見を見つけるデータマイニングというアプローチも取られるようになってきた. 前者についてはPDCAならぬPPDACサイクルを回すという形になる.Problem Plan Data Analysis Conclusionである. 後者については,十分なデータが与えられた場合はまずは記述統計と可視化によるデータの可視化が重要.可視化→仮説検証ループへ.さらにデータが必要ということがわかることもある. 整理されたデータ,明確な課題,企業側担当者がデータ分析経験を持っている(リテラシ?)ことが成功の秘訣.

相関と因果の違いという問題もある.予測には相関で十分だが,対策には……. 例として,メーカーからの要望として異常検知,故障予測,制御による改善,というものがあるが,順に難しい課題である. 異常検知は異常データがあれば検知しやすいが,正常な状況から故障予測をするのは時系列変化をとらえる必要があるし,制御のためにはメカニズム理解が必要である(かつ可制御). 予測だけでも有用な場面は多いが,因果推論はやはり重要である.

ビッグデータそのものの特性として,実験データではない観測データというものがある.因果理解しやすいデータではないし,とりやすいデータだけ集まっているというバイアスもある.このため,統計調査が不要ということはない.

現在のAIというかDLはブラックボックス的であり,自信をもって間違えるということが起きうる問題がある(説明できないので予測性能が高くてもたまにメカニズム不明な間違いをされてしまう).今後ともデータの時代は進んでいくはずだが,データに基づく意思決定にはデータの様々な側面を考慮する必要がある.

Q&A
  • 滋賀大DS学部は編入受け入れしているか?
    • していない.最初に作ってから4年間は精度を変えられないため,あと1.5年はこのままである.高専からの編入需要があれば検討する.
  • 勤労統計はデータをとるのが大変というものがあるが,データが持っている側面を考慮する分析はどうすればいいか?
    • 額面のうちどこが残業代でどこが基本給なのかは給料を払っている企業の協力がないと難しい.

クロージング

来年IBIS2020はつくば国際会議場日航つくば. しましま先生が実行委員長,いしはたさんがプログラム委員長. 11/23 - 11/26開催予定(23日がチュートリアル).