カイヤン雑記帳

カイヤンがやったことを書いておいたり、ぼやきたいことを書き込んだりする場所

【IQ1AdC】新しい生活様式におけるIBIS2020参加報告【12/8】

おはようございますまたはこんにちはまたはこんばんは。カイヤンです。

本記事はIQ1AdCの8日目です。

IQ1AdCはみんなでIQ1なことを書くAdCです。毎年、IQ1なことを書いてきました。

今年は従来よりもっともっとIQ1な感じで行きます。 具体的には、学会参加報告をそのまま用います。 完全なる使いまわしですね。何でこうなったかと言うと、更新日当日になって存在を思い出して0時過ぎから書き始めたからです。私、怠惰ですね(古い)。

すなわち、聴講メモより上に書いてあることは、基本深夜テンションです。

IBIS2020参加報告

今回は国内最大の機械学習の学会であるIBIS2020の参加報告です。聴講記録メモを後述しています。 今年はオンラインでの開催であり、例年とずいぶん違う形式でしたが、例年以上に楽しむことができました。

過去の参加報告はこちら:

上記と以下を見比べると、ほんとに楽しかったということが伝わる、ハズ。

現地(?)の様子

今年度はこんな状況なのでオンラインでの開催でした。 IBISとしても初のオンラインだったそうです。

コミュニケーション

数理科学の学会なのに初手でコミュニケーションに言及すると某W先生に怒られてしまいそう(参考)ですが、ともかく。

さて、オンライン学会のメリットとデメリットは何が考えられるでしょうか? 考えられる一部を示してみます。

  • メリット
    • どこからでも参加できる
    • 他のタスク(仕事、授業など)の合間に参加できる
  • デメリット
    • 自分の知ってるものしか聞こうと思わない(新しいつながりの獲得や耳学問が困難)
    • どこからでも隙間時間参加できるが故に学会に集中できない場合がある(オンサイトなら出張扱いだが……)

メリットの1つ目は非常に強力で、格安の参加費を払うだけで旅費なしで学会参加できます。 普段なら10万円飛びかねない学会参加の通算費用がなんと数千円で済むのです。これはすごい。

メリットの2つ目の裏返しでもあるデメリットの2つ目は、参加者または発表者としては休暇扱いで全日参加するという方法があります。 カイヤンは有給休暇をとりました。 学会運営のみなさまは……想像できないほど大変だったと思います。この状況でも一般セッション含めて開催していただき、本当にありがとうございました。

さて問題はデメリットの1つ目です。これ、かなり馬鹿にできません。 上記の参考資料でも「人間力・構想力・コミュニケーション力は生きる基盤であり大切なものである」としています。 情報系のギークな人は、「学会は最近の研究レベルの技術動向を勉強したり、自分の発表を行うための場であって、コミュニケーションの場ではないのだ。ぷぷい」と考える人もいるかもしれませんが、 そうとも限りません。

学会は、特に学生~若手にとってはネットワーキングの場として非常に重要なのです*1。 分野の人々に、〇〇の研究の主役は我々だをしているのだとアッピルする貴重な場です。 オンサイトの学会であれば、興味を引くポスターなどがあれば、知らない人も見に来てくれることがいつも何度でもあります。 しかし、オンラインでは物理的に聴講に行くわけではないがゆえに、事前に知らないものは目に入りません。 交流の機会も限られます。そうなると、自然と知り合いを皆探してしまうのです。

この問題にPC委員の皆々様は、とても精力的に取り組んでくださいました。 カイヤンがとても効果的だったと感じた方策を以下に記します。

  • チャットツールとして定評あるSlackを公式なインフラとして用意してくださった。
  • Slackを用意するだけでなく、そこでカジュアルにゆるゆるあったかくコミュニケーションができるようにPC委員の方々が率先して盛り上げてくださった。
  • 人数規模の関係から懇親会の開催が難しい代わりに、本会議の3日間は毎日希望者にランチセッションを整備。参加者をランダムに部屋に割り当てることで知らない人と雑談する機会を用意しつつ、司会役のPC委員の方が入って知らない人とのかつオンラインの進みにくい雑談を盛り上げてくださった。
  • 質疑応答もすべてSlackで行う形式とし、PC委員の皆様が積極的に素朴な質問もしまくることで、質問しやすい雰囲気を形成してくださった。
    • 質疑応答がSlackで閉じたことで議事録として見返せたり、挙手と異なり非同期に質問を書くことができたりといったことも、体験を良いものにしていた。
  • 例年ではポスターで行う一般発表のセッションを動画投稿形式で用意。更に各発表ごとにじっくり議論するためのチャンネルが用意され、ポスター前での深い議論が再現できる環境になっていた。

このように、オンライン学会で最も難しいデメリットの一つを解消するためにありとあらゆる手が尽くされていました。 その甲斐もあり、オンサイトと遜色ないというか、個人的には今までで一番良い体験ができたと思いました。 僕が勝手に盛り上がってるだけとかPC委員への忖度ということはなく、実際にコーヒーブレイクルームという体のはずのZoom部屋が、学会終了後もしーばらくの時刻*2まで雑談部屋として動いていました。 そこで知り合いになった方々もいます。本当に楽しかったです。

発表現場

本分である研究発表についても、とても充実していました。 発表されているテーマの傾向については後述しますが、まずシステム面から語らせてください。

動画による発表

まず、一般発表はすべて10分の動画を事前に投稿してそれを参加者だけが見れる形で公開するという形式でした。 発表の場として、一般セッションに各人の動画を流してオーラル発表ライクに進めるものがメインとして置かれていましたが、 後日見直したり前日に予習したりが容易でした。

動画投稿形式は予習や見直しやすさよりもずっと強力な次のメリットがありました。

  • 動画を流す発表形式なため、発表中に質問するとその場で発表者が返すことができる
  • 口頭+スライドショーに限らない多様な発表形式が許容される

1つ目はニコ生やYoutube配信のコメント拾いのようなスタイルで質疑応答が進んでいたのが、個人的にすごくいい感じでもありました。 現場でも、ニコニコのコメントが流れてるような雰囲気で面白いという声も聞きました。 何より、発表で気になったことをその場で聞いてすぐ答えが返ってくる状況は、質問者にとってうれしいのはもちろん、回答者にとってもどういう文脈の質問だったかわかりやすいので答えやすいというメリットがあります。

2つ目も強力です。ホワイトボードを使った発表をしている人もいましたし、合成音声で肉声より滑舌の良い発表を実現している人もいました。 どちらも――特に前者は――従来の発表形式では不可能な方法でした。オンライン時代だからこその発表形式、言うなれば新しい発表様式なのかもしれません。

デメリットとしては、発表の直前まで資料修正を続ける(ポスターだと土台無理だが)ことや、前の発表などを受けてトーク臨機応変に変えるといったことが不可能になる点です。 アドリブが好きな人にはちょっと物足りない発表になったのかもしれません。

Slackによる質疑

上でも書きましたが、質疑応答はすべてSlackで閉じていました。 正直、もうオンサイトでも今後ともこれでいいんじゃないかという気がするくらい良いシステムでした。

  • 文で書いて質問するため、話がとっ散らかりにくく、質問の体を装った自分語りも起きにくい。
  • 応答も文であるため、Slackのスレッドが実質議事録となる。後で見返すことが容易。
    • Slackの発表やセッションごとのチャンネルのTLに質問を書き、スレッド(または質疑応答時間に口頭)で応答するため、質疑の木構造が自然に作られる。
  • Slackに非同期的に聴講者が質問を(講演中も含めて)書きこむため、オンサイトの挙手を募る形式と異なり数の制限がなく質問ができる。
    • 上述したような雰囲気作りの賜物もあり、素朴な質問もガンガン遠慮なく書き込むことができる。コミュ障に優しい。
    • 素朴な質問はしばしば問題視していなかった強い仮定を指摘する視点にもなるため、有用なことがある。
    • 実際、発表現場の質疑や議論はとてもとても盛り上がっていた。
  • 必要に応じて参考文献リンクをポンポン投げ合える。

デメリットは、ポスターに書き込んでの説明がしにくい、とかでしょうか。

発表テーマの傾向

ある意味、このサブセクションが一番学会参加報告らしいことを書いていますww

IBISはかつて「IBIS怖い」と言われたことがあるらしいくらい、伝統的にかなり理論寄りの学会です。 IBISの日本語名は情報論的学習理論と機械学習研究会。 第二次AIブームが終わりたての冬の時代に機械学習はどうすりゃいいですか? と言わんばかりにマニアックなこともかなり自由に行われていたようで その風土を継承して純粋な興味駆動の理論研究や実験も多く発表されてきたようです。

今日は大惨事第三次AIブームの真っただ中で、機械学習技術は広く使われています。それゆえ、IBISもかなり実学的な発表が増えてきており、 特にIBIS2017では1つの招待講演を除いて他の企画セッションがすべて応用だったこともあります。 一般発表については、例年理論やアルゴリズムの発表も盛んにおこなわれ続けているように見えます。

今年度は、IBISらしいと参加5回目のカイヤンが言うのも変ですが、いい意味でかなり理論とアルゴリズムよりの構成でした。私好みです。 今のブームの立役者たる深層学習ですが、理論的なことがずいぶん多くわかってきたようであり、なんと深層学習理論の一般セッションが2つもありました。 同じテーマのセッションで2つも立てられていたのはこれだけです。また、学習理論の企画セッションも2/3が深層学習理論であり、 深層学習理論単品で企画セッションを構成していた昨年度に続き、今年度も深層学習理論がかなり進んでいる印象を受けました。 一方、一般セッションにおける非深層勢の理論研究はいろいろなところに散り散りになってしまいました。 情報理論は1セッションにまとまっていましたが、学習理論セッションも用意するのは難しかったのでしょうか……。

何となく今年の特徴かなと思う点は理論の多さだけではありません。 シミュレーション関係の発表で1セッションを構成できる規模になっていました。 また、因果探索・推論がかなり勢力を拡大している様子も見て取れました。 チュートリアルの一つのテーマになり、更に確率モデル・因果推論の一般セッションの過半数を占める発表が因果推論関係でした。 因果探索・推論は数理的に奥深く、発表も理論的なアルゴリズムよりでした。 一方、機械学習技術が広く応用されているがゆえに、解釈性や信頼性が求められています。 そのような背景を写した姿が、因果推論の発表が例年より目立った形で現れたのかもしれません。 深層学習理論の発展もですが、時代が数年前から大きく動いていることを実感する状況でした。 思えば、昨年度も今年度も、解釈性・公平性・信頼性に関してセッションが組まれていました。 もはや機械学習技術の威力を否定できる状況ではなく、だからこそ実社会応用に耐えられるための技術発展が進められているのではないかと思います。

結びの感想

  • オンライン開催だからこそ魅力的だった面が多く、個人的に今までで一番楽しいIBISだった。
  • 発表内容の傾向も好みで、多くの理論研究や、精度追及ではない側面から切り込んだアルゴリズム提案が発表されていた。
  • 社会の変化を受けながらも理論も非常に根強く、COVID-19下でも変わらぬものがあると思えた。

以上、深夜テンションで書き綴った学会参加報告です。

以下、なっっがい聴講メモとその目次です。 IQ1なので特にブログ用にきれいに整理もせず、テキストエディタでの表示前提のままどばーっと書いてます。

なお、コンパクトにまとまった聴講ログとしては、しましま先生のものがおすすめです。

IBIS2020聴講メモ

以下は学会に参加しながらとった聴講メモそのままです。 特にブログ用に整理とかしていませんし、間違いがあるかもしれません。 テキストエディタで見ること前提のメモなのでmd→htmlとかしたブログ上の表示はちょっと読みにくいかも?

11/23

オンライン開催。

opening

いしはたさんがOP担当。 IBISの魅力を損なわずオンライン化することがPCの使命だった。

今年の招待講演はロジックと統計AIを組み合わせた話と、モデル解釈。

企画セッションは1日目と3日目。 理論、応用、信頼性、グラフとアルゴリズム

ポスターをオンラインでやると盛り上がらない→オーラルのパラレル化。 一般セッションは並行開催し、3番がメイン会場で実施。

動画はZoomで、質疑応答はSlackでやる。

ランチ交流会は雑談の場という意図。

11/23-30に動画を公開しているので気になるのは見よう。

Slackのチャンネルはガンガン書き込もう!

チュート1 深層強化学習

強化学習:試行錯誤により方策を学ぶ 応用:ゲーム、ロボット、意思決定の数理モデル脳科学

↑NNを函数近似に用いたら深層RL

活躍

  • ロボットで一般の物体を掴む、創薬に使われている。
  • チャンピオンを倒すゲームAI

問題点

  • AlphaZeroは棋譜データを生成するのに第1世代TPU5000枚、学習に第2世代TPU64個
  • ルービックキューブをロボットアームで触らせて学習(2.8GWhの電力、原発3基の1時間の発電量)

今回のチュートリアルでは深層前のRLと深層により何がうれしくなったかにフォーカスをあてる。 順RLと逆RLを扱う。 オフラインRL、メタRL、時間の離散化は今回の対象外。

状態遷移確率$p_T(s'|s,a)$が環境のダイナミクスを表す(Tはtransitionの意味)。 これを明示的に求めるのがモデルベース、てきとうな函数近似でぶつけるのがモデルフリー。 価値函数リワード$r(s,a)$を良くする方策$\pi(a|s)$を学ぶ。

状態sからスタートして方策πに従って行動した時に得られる期待総報酬を最大化する: $$V^{\pi}(s)=\mathbb{E}_{\pi}\sum \gammat r(s_t, a_t)\pi(a_t|s_t)$$ 割引がある理由は数学的に扱いやすい(等比数列)からであり、また神経科学でも人間がマルコフ決定過程を解くときにタスクによってセロトニン量が異なる(割引率が異なる)ことが実験事実としてある。 ただし神経科学ではRLのような等比数列は収束が早すぎるので避けられることもある。

Q函数:状態行動価値函数$Q^{\pi}(s,a)$ 定義式はDLした資料を見るか……VとQで期待値を取る確率分布が異なることに注意。

ベルマン期待方程式:VとQに感る方程式、現状体の価値と次状態の価値の関係式 状態x行動から実数への作用素がベルマン方程式の右辺から定義される→ベルマン状態行動作用素 この作用素における期待値計算を解析的に解けるように設定するのがモデルベース、サンプルからの経験平均で近似するのがモデルフリー

解の一意性より、反復法で解ける(モデルベース)。

  • 解の一意性はあくまでQ函数であり、方策は一意に定まらない(電池回収時に左右対称なフィールドなら左右どちらから回ってもいいしそういう函数が学習される)

最適方策と対応する価値函数を推定するアプローチであり、方策とQ函数を反復法で更新していく。 ベルマン作用素の適用回数によって分類される。

  • 1回:近似価値反復法
  • 無限回:近似方策反復法

ベルマン最適性方程式は最適状態行動価値函数$Q^*$が$Q$の方策に関する最大値となるという意味。 ベルマン状態行動作用素の内側の期待値部分を最大値にすると、ベルマン最適性作用素。 誤差は状態と行動にもちろん依存する。

DQNは近似価値反復法に相当する。

状態遷移確率$p_T$が未知の場合はその期待値をなくした近似ベルマン作用素を観測値から計算する。 このとき、目標値と現在の推定値の差(TD誤差)が生じる。TD誤差をδとすると、定数αを用いて漸化式が書ける。

DQNの工夫はいくつかある。1つはターゲットネットワークを私用しているところ。 TD誤差の2条を損失函数として学習するNN。TD誤差のJQとQはQを変えるとJQも変わるので大変。 目標値JQは別のNNを使って計算する(JQとQを学習するNNの重み更新のタイミングをうまくずらす)。 NNでRLするならほぼ必須。

1995年にマウンテンカー問題を2層NNで解かせた話がある。 NNで学習させると発散するという報告。翌年はSuttonが局所的な函数の近似を使う(NNは大域的過ぎてまずい)形でRLによるマウンテンカーを解いた。 ↑の報告により、RLとNNは相性が悪いのでは? とされてきた。 Suttonいわく、1992ころのゲームでうまくいく例は研究者がゲーマーでNNをカリカリにチューニングしていたからだと。

2つ目の工夫は経験再生と呼ばれる。学習データを使いまわすことでサンプル効率と近似ベルマン作用素の確率近似を改善する。 利用可能な学習アルゴリズムは方策オフ型のみ(改善しようとしている方策とは別の方策で取得したデータも使える設定)。 改善しようとしている方策とデータを収集している方策との間に調整が必要である。

エントロピー正則化RLは報酬がエントロピーとKL情報量で書けるという設計。 正則化の係数がついているので異なるが、クロスエントロピーっぽい形。 この問題設定でラグランジュ未定乗数法により制約付き最適化を解くと、 解析的においしい関係式(34ページ)が得られる。

説明がgdなのでこの辺で聞く気が消えた。資料読むし本読むわ。 逆強化学習はちょっと期待したんだけど。

強化学習のまとめは82ページ。

QA

  • 割引率の良い決め方は?

    • 難しい。時間の離散化も合わせて経験的にうまくいくチューニングはある。
    • 自動調整するのはなかなか難しい。
    • 方策勾配で2段階で割引率を決める方法が提案されているが、ゴールドスタンダードはない。
  • 割引のつけ方はどれくらい一般化されているか?

    • 指数割引以外は神経科学で主に研究されている(指数割引はヒトの意思決定には向かない)
    • 双曲割引は実験的にうまく行くがRLのアルゴリズムとしてやりにくい。
    • 指数割引を近似的に表現しなおすアンサンブル(いろんなγで学習しておく)を使うというのが最近の流れ。
  • 正則化がKLになるのはsoftmaxの形になって楽だから? たまたま計算しやすかった?

    • はい。
  • 強化学習の評価はどうすりゃいいですか?

    • 最適方策がわかっているときの研究をいろいろやってるが、正則化しても報酬は一意にならないので報酬を比較することはできない。一般的なのはテストロスを見るくらい。
    • 推定された報酬函数を解析して後でアンケート調査することで定性的に意思決定プロセスを調べる評価も行われたりする。

チュート2 バンディットとベイズ最適化

行動に対して報酬が得られるという系を考える。 報酬の累積和を最大化するようにエージェントが行動する。

探索と活用のジレンマ (ABテスト実施による損失とABテスト実施による有効性の検証) (全部試さなきゃダメ?)

ユーザ特性を無視して各試行(アームを引く:ABテストのデザイン提示など)を独立にしてよいか? →レコメンドとかでよく研究される

単純なやつ:ε-greedy 確率εで探索してさもなくば活用する。 探索範囲で得られる報酬の標本平均の最大化

有名なやつ:UCBアルゴリズム UCB=θ+√なんたら √なんたらというのは選んだ回数が少ないとき(不確かさ)のターム(θは標本平均のよさ)

有名なやつ;トンプソン抽出 各選択肢の報酬期待値の事後分布を実現する。 期待値のサンプル中で最大となる選択肢を選ぶ。

正解率の改善という点ではε-greedyでもけっこう優秀。 しかし累積報酬という本来最大化してるものを見るとどうか? 累積報酬の高さそのものはよくわからないが、 全知全能Agent(常に最適な選択肢をとる)が実現する累積報酬と、実験結果の差=リグレットで評価するのが一般的

リグレットで見るとε-greedeyよりUCBとかのほうがやはり優秀。

文脈付きバンディット。選択肢が特徴ベクトルで与えられる。 特徴量さえわかれば、与えられる選択肢は時変してもいい。 従来のように選択肢と報酬のテーブルを持つようなナイーヴな方法ではなく、 何らかのモデルを置く方針になる。

ある選択肢をxとしてその特徴量をφ(x)とする。 期待値θとφ(x)の関係を考える。 これはθに寄与するある重みwがあって、$θ=f(φ(x)T w)$で決まると考える。 この函数fをいろいろ変えることで一般化線型モデルを考えられる。 fがidentityだとすれば、線型回帰モデルの事後分布として解析的な事後分布が得られてうれしい。

解析的に計算できてもinv(行列)が出てきて速度が怖い。 ウッドベリーを使って変形するとinv(A)=g(inv(A))の形で書けるので、 A'=inv(A)を最初から使えばinv函数を呼ばなくて済むので楽。

線型モデルが背後にあるバンディットを線型バンディットと言う。 Linなんとかと書く。例えばUCBならLinUCB。 UCB(t)=φ(x_t)T μt + α√{φ(x_t)T Σt φ(x_t)} と、普通のUCBと似たような形になる。期待値と不確かさという解釈ができる(Σ_tは各時刻の多次元正規分布の分散共分散行列)

チュート3 K

企業などがデータと賞金を用意して参加者は精度を競う。 コンペ単位でスコアと順位によってメダルが貰える。 メダルがある程度たまると称号。

データや課題設定の豊富さがすごく特徴的。 言語をまたぐテキストデータ、画像とテーブルデータのセット、など。

いろいろな種類の精度(AUCとかロスとか)が求められるのでそれに合わせて提出する。 テストと学習でデータの分布が違うときはmetric learningで分布外予測。

データの確認もかなり重要。 近傍スライスを重ねるとか、分布外データが生じうるかとか。

資料もいいけどslackの質疑応答がコンテンツ充実してるぞい。

チュート4 統計的因果探索

因果探索:因果構造をデータのみから推定。 仮説検証(これが狭義の因果推論?)ではなく、データからグラフを作り出す。 介入なしでデータのみから推定する(介入するのが本来因果を抽出する上では重要)

統計的因果探索はStatMLの方法論の応用なので、StatMLの人はもう一本論文が書けるかも。

因果の定義:X→Y⇔Xを変えるとYが変わるがYを変えてもXは変わらない

線型な関係:独立な外生変数ExとEyを用いてX=Ex, Y=a_x X + Eyと書いてみる。 これだとX=(Yの式)とできてしまうため因果にならない。工夫が必要。

do演算子。do(X=c)はXをcという(他の変数の値に依存しない)定数に固定するという操作を意味する。 do演算子は有向グラフにおいて入る→を消すイメージ。 X→Yならdo(X=c)でもX→Yになるがdo(Y=c)ならX Yとなる。

条件付確率を考えるときにdoの有無で変わる。 介入なしの条件付は影響を与えるが、介入ありの場合は独立にさせられる。 介入によって矢印が残るならそのまま。

では、因果関係があるの定義は? 平均因果効果:=E(Y|do(X=c))-E(Y|do(X=d))!=0であるということ。 c!=dとする。 Xに介入したときにこれを冒頭の線型な例で計算するとc-dになるし、 Yに介入してもEx-Ex=0にしかならない(因果関係がない)。

RCTが介入の方法。他にも回帰不連続デザインもある。

共通原因があるような場合はデータのみから因果の有無を知ることはできない。 観測された共通原因なら調整によって推定できる(様々な手法がある)。 未観測だと難しい。操作変数がある場合は不可能なケースばかりではない。

介入は倫理的に許されないケースがあるし、全探索するのは効率が悪い。 だからこそ統計的因果探索をする。

目的

  • 観測データのみから因果構造を推測する
  • データ生成過程にモデルを仮定することで、その仮定から導かれる統計的因果探索手法により推測する

↑どんな仮定がされがち?

  • 非巡回な因果関係(DAG)
  • 各観測変数X_iは函数f_iを用いてf_i(PA_i, E_i)で表す。PAは直接原因となる変数の集合、Eは外生変数。
    • 外生変数は互いに独立であると仮定される。
  • 未観測共通原因がない

基本的な方法:PCアルゴリズム(1991)

  • 因果函数に仮定を置かない因果探索(さすがに一般的な仮定は置く)。
  • 完全無向グラフを作って条件付き独立な子たちを見つけて辺の刈り込みを行う。
  • head2head(X→Y←Zなど)を確率計算で見つけて向きを付ける。
  • 確率は無視して非巡回になるように向きを付けていく。 ↑条件付き独立だけ考えるのですべての辺に向きを付けられないこともあるし、 真のDAGが得られないどころか真のDAGが異なるときに推定結果が同じになることもある。

なので因果函数f_iに仮定を置く。 重み付き和になるというのがLinGAM、あるクラスの非線形函数を考える場合はANMとかRESITとかがある。 ポスト非線形は外生変数も含めて非線形函数g_iでくくる。 今日はLiNGAMの中でもDirect-LiNGAM、非線形はANMを説明する。

因果函数が線型で2変数のみの時:LiNGAM YをXに回帰したときの残差とXをYに回帰したときの残差がどうなるかを考える。 前者はEyそのものになり、Xと自明に独立。 一方、後者はYと独立でなくなる(共通の非ガウス変数を持つため)。 ガウスの時は散布図がちゃんと独立になってくれるが一様(非ガウス)だと相関が出てくる。

因果のorderの決定は、親がいない変数(因果的に上流)から探していく。 キモなのはペアワイズ回帰をしてその相互情報量的なものを最大化するところから見つけていくところ。 このオーダーに基づいて、各変数にとって自分より因果オーダーが上位の変数に対して重回帰して変数選択(適応的lassoとかで)。 選択されなかった変数との辺をカットしていけばよい。

非線形版ANM 外生変数が非ガウスでなくても因果函数非線形なら因果の向きを正しく推定できることを示した。 RESITはANMの拡張。 因果のオーダーは下位から決める。

因果探索の論文で必ず記載するもの

  • データ生成過程のモデルの仮定
    • 因果函数、巡回について、カテゴリ変数を含めるか、未観測変数はあるか
    • 厳しい仮定でも現実にありそうなケースだったり効果が強ければOK
    • sshimizu06先生のページが役立つ
  • 因果関係の識別可能性の証明
    • X→Yのときに(X,Y)だったら見つけれて(Y,X)なら見つけないということを証明する必要がある
  • 推定アルゴリズムの提案
    • 回帰手法、独立性の判定手法、多変数因果構造推定アルゴリズム
    • 基本的に識別性の証明の内容に沿うようにする。ANM/RESITで線型ガウスな例をやってたのはよろしくない
  • 人工データと実データの実験
    • 仮定を満足するデータ生成をする
    • 実データは2変数間ならベンチマークあり

ニコラス先生の研究:未観測共通原因ありの状況での因果探索

未観測共通原因があると識別不可能になるし、多変数だと誤った2変数間の因果を見つけてしまう。 どうすりゃいいですか? →①直接または間接の原因を取り出して②そこから直接のみを絞り、③未観測の影響を受ける場所を特定する

①はXとYが識別可能になるまで変数を減らす。 ②は回帰残差との回帰を使って間接原因を除去する=直接原因のみ残せる。

非線形ICA まず線型なICAはあのICA(独立成分分析)。 x=AsなるAとsをxから求める。 非線形ならx=f(s)なるfとsということになる。 時系列非定常性について、ある区間内では定常だが区間を超えると非定常的になるとする。 このときは少し仮定を足すと一意な潜在変数ベクトルが求まる。

時間セグメントでデータを分けてMLPで学習する?

補助変数を用いた表現学習による非線形ICAも。

非線形は発展途上(ANMとかも理論がびみょい)

QA

  • LiNGAMの中身で変数選択しがちだけどハイパラに鋭敏よね? どうするん?
    • 良い方法は決まってない
  • 変数の影響
    • (聞き逃した)
  • ベクトル間の因果はできる?
    • MDL使ってどうこうというのは見たことある
  • 因果探索で因果効果が実証された事例は?
    • 分野として理論が先行しがち。
    • 脳のMRIや経済的な因果分析に使ってる例はある。
    • 遺伝性制御ネットワーク(遺伝子がどれだけ発現するかは他の遺伝子に依存するのでその因果関係を探索する)
    • Scienceでタンパク質の因果グラフ探索が報告されてた。
    • ↑生物系で成功しがち(各変数が似たもの同志だから。タンパク質同士とか)(社会学だと学歴と年収というあまりにも異なったクラス)

11/24

一般セッション

パラレル開催なので バラバラ に参加した。 移動による同期ずれでいくつか聞きそびれた。

一般1-4-2

合同変換(平行移動や直交変換)に不変なNN。 ↑物理シミュレーションを函数近似器で学習したいのでこの性質が必要。

点群などで表現されるCADデータの類はボクセルと3DCNNより点のつながりを見てグラフと見なす方が表現力が高くて有利なのでGCNをベースとする。 GCNは合同不変ではないので(空間情報を入れても同値なトポロジーのグラフを区別しなくなる)、工夫が必要だった。 グラフの隣接行列の扱いを工夫した。 NNのアーキテクチャも離散化した微分演算子をうまく取り込んだブロックで繋いだ。

QA

  • 熱だけでなく変形も扱える?
    • 変形だと定常状態を扱いがち。いくつかギャップを埋める必要があるが対応可能と考えられる。
  • 座標系のグローバルな変換に不変としたい?
    • グローバルもローカルも対応するようにしたいし、今回の方法は対応できる。

一般1-1-3

重みだけでなく基底函数も変えながら学習する適応的学習が基底を固定するよりも良い性能を示すことを示した。

QA

  • 他の方法でも適応的な基底だと良い?
    • 表現できるなら。
  • 閉集合(立方体)上で定義される変動Besov函数だが、境界上で不連続にならない?
    • はみ出したときに0になるという定義なので大丈夫。
  • 立方体じゃなくて一般の閉集合だとどう?
    • 定義できると思われる
  • 変動Besov空間に真の函数が入っている→どこで真の函数が暴れるかを使っている?
    • はい。
    • DNNはどこで暴れるかわからなくてもそれを見つけている、という話。
  • 変動Besovはどういう現象をキャプチャするのに役立つ?
    • Besovと滑らかさの性質が変わっている。データ空間の場所によって推定難度が異なると考えられるのでそれにも対応できるようにした。

一般1-1-4

DNNは最初は強い仮定の基で大域的収束を示していたが、幅が広いNNを考えると示しやすい。 これが過剰パラメータ。 いろいろレジュメがあるが、今回は平均場を考える。

過剰パラメータNNを積分表現で表してあげる。 つまり重みづけの和を積分で書く。

リッジレット変換を使うと積分表現作用素の逆作用素もexactに得られる。

作用素はそうだが、経験リスク最小化したときに収束するか? どこに? どのように? 実験結果としてはリッジレット変換で表した逆作用素に収束しそうだという結果。

まずリッジレット変換をトーラス上で作る。 活性化函数が周期系になってしまうが、いくらでも広い周期(トーラスの半径)をとってよいので、実際上は問題ない(ReLUとかもあり)。 L2正則化付で二乗誤差最小化学習すると、積分表現の基でリッジレット変換に収束することが示せた。 有限NNでも極限でそうなることを示した。これが主結果。

2年前の研究では有限サンプルや有限NNについては何も言えていなかったが今回無事示せた。

過剰パラメータのレジュメとしてはlazy学習もあるが、これとの関わりもある。

QA

  • minimizerの影響は?
    • minimizerは収束できるものとしている(実験はただのSGD)。現実にはAdamとか初期値で結果は変わりそう。
  • 積分表現のパラメータρはどうするのがいい? 学習モデルの活性化函数σ?
    • 学習モデルと同じ活性化函数σにするのがいいという結果
  • 大域的収束を示したというわけではない?
    • 収束先の明示的な表現を得たという話です。
  • 薄いNNで幅がクソデカなときと深いときとのギャップは埋めれる?
    • NTKとかで埋めれるかな。多くの過剰パラメータ系の研究と共通の薄いNN設定を考えている。
  • 収束レートは見積もれる?
    • バナッハ空間上の大数の法則を見ているので収束レートはわからないが表現力を絞るとたぶん出てくる(1/√n)
  • 過剰パラメータの既存研究はどれ?
    • 動画冒頭のやつ。平均場系が該当するかな。

一般1-1-5

大域的収束保証付きのminimizerを提案する。

平均場NNの学習法であり、確率測度の最適化問題として定式化している。

  • 幅に依存した定数倍がつく(1/幅数→平均場NN、1/√幅数→NTK)

一次の勾配法は停留点へ収束するが、非凸においては大域的最適解に行くとは限らない。 それをどう示すかがこの分野の鍵。

函数空間上では実は凸性が成り立つことがわかるので、これを利用する。 過剰パラメータだと重みがある分布のサンプルだとすると、積分で極限を表すことができる。

双対平均(dual averaging, DA)という凸最適化手法を基に、 粒子DAを提案する。 二乗誤差+KLというロスだが、これを二乗誤差+正則化正則化(負のエントロピー)と分けて、前者2つをDAのロスとみなして後者をDAの正則化とみなす。 粒子はランジュバン法で実現できるボルツマン分布に従う。

早期終了なしの実験でSGDPDAを比較した。

QA

  • 正則化をかけるとレートがでる?(DAだからレートが出るというより)
    • DAのおかげで強凸になっているというのが今回の問題。もちろん正則化がなければレートを出すのは難しい(DAでの解釈はともかくKLで正則化してる)
  • ボルツマン分布の形なのにわざわざランジュバン法するのはなぜ?
    • あくまで学習過程がその形になる
    • その分布での平均を求める必要があるのでサンプリングが必要
  • 連続時間での解析に比べて離散時間に特有の難しさがある?
    • 連続を離散化したときのズレがどうしても生じるがアルゴリズム上は離散時間扱いになるのでそれを

一般1-2-6

多目的最適化は複数の目的関数を同時に最適化するが、トレードオフが生じがち。 パレート解集合を求めることになる。 パレート解集合は目的数-1次元の図形になるため、目的数が多いと解釈ができない。 目的数に依存するので次元削減を使うことは難しいし、高次元ゆえにそこを近似するサンプリングはうまくいかない。

ベジエ単体はベジエ曲線を高次元に拡張したもの。 現実の多くのパレート解集合が曲がった三角形(simplexと同相)になることを利用して ベジエ単体でうまく表現できることが知られている。 しかし、決定論的な方法ではノイズに弱く信頼区間も出せない。 →確率モデルにしてベイズする。

ベジエ単体の各制御点の座標がMvNormalに従うとするが、このとき尤度の計算は難しいのでABCする。 ABCしたときの推定量を理論解析した。 ユークリッド距離ベースの収束性解析を行い、推定量の平均値がどうなるかを調べた。

QA

  • 尤度を解析的に計算できないってどゆこと?
    • ベジエ単体は媒介変数を含むモデルであり、データ点の入力だけでは媒介変数の推定が必要になる。
    • 単体から尤度への函数逆関数がexplicitに書けないため尤度を正規分布逆関数の組合せで書くことができない。

一般1-2-7

個人向けローンのデフォルト判別をしたい。 信用評価モデルを作る(属性情報や財務情報を使う)。

ロジスティック回帰や決定木などを従来は使っていたが、RFやDNNみたいな精度向上の研究もある。 しかし貸付数が少ないときはどうすればよいか→転移学習。 MLPでモデルを作り、層を共有することでクレジットカードから自動車ローンへの転移に成功。

ソースドメインとターゲットドメインの特徴量の平均値の二乗誤差すなわちMMDを小さくする特徴量変換を行う。 ドメインを識別しにくいすなわち似ているものと考えるため、GBDTで分類器を作り、AUCの低さで選択する(敵対的バリデーションと同じノリ)。 敵対的バリデーションによるドメイン選択を使うと、敵対的バリデーションのAUCが小さいところでデフォルト予測のAUCは最大になっていた。ドメイン選択はうまくいっていそうだ。

QA

  • 公平性は取り込んでる?
    • sensitiveな特徴量は除去している。
    • デフォルトを予測して格付けするブロックと、貸出可否を判断するブロックがあり、後者は特に公平性を意識する。
  • センシティブな特徴量を除去しても再現できたらまずくない?
    • 難しい問題。意図せず再現してしまう可能性はあるが、予測結果を出力する際は精度重視(説明をしない)なのであまり気にしてなかった。
    • 説明責任のあるブロックでは考慮していると思う……。
  • ローン申請がリジェクトされたときユーザから理由を問われたりしないの? されないから精度重視?
    • 理由を問われたら説明する義務はある。
    • 説明責任がある部分ではロジスティック回帰をして説明を作る。
    • DNNとロジスティック回帰で乖離が生じたときは業務フローとしてはロジット。モデル運用としては解釈が必須で難しい。

一般1-2-8

スペクトラル法によるクラスタリング。人間グラフ内の友人関係など隠れた構造を推定するのに向いてる。 (グループ分けをする)

グラフを密なノードグループどうしで分割する。 正規化した羅プラ試案行列の固有ベクトルから写像F:V->Rkを作る(kはグラフの分割数)。 写した先で分離する?

k平均問題に対して近似比率αのアルゴリズムを使った時、 ギャップが分割数kの3乗で近似精度も同程度かk2くらいだったものを、どちらもkの1次オーダーで書けたという結果。

招待講演1

Pedro Domingos先生。論理AIと統計AIの合わせ技;マルコフロジックの先生。

Markov Logic Network(MLN) is a set of (F: first-order logic, w:real number)

Smoking and friends

Smokes(x)->cancer(x) friends(x,y)->(smokes(x)=smokes(y)) Note: friends are not necessarily symmetric.

xとyを固定したときのfriendsとsmokesがなすネットワークがMLN これの上の確率分布は何か $$P(x)=(1/Z)\exp(\sum?i w_i n_i(x).$$

Infinite weights -> First-order logic positive -> satisfying assignments = Modes of distribution Markov logic allows contradictions between forumulas

Markov logic includes many statistical models(HMM, exponential models, gibbs distribution, Markov networks, ...) Markov logic allows objects to be interdependent (non-iid) ->social network, molecular metabolic netowork, ... can be treated.

How to inference? Use any probabilisitic inference algorithm (MCMC, belief propagation, ...) Problem: Ground Markov net is too large

Lifted inference よくわからないめう

企画 学習理論 1-1

DLはカーネル法より最適化問題としては難しいことをやってる。 しかし基底函数が適応的に学習されるため、複雑な函数・非凸なモデルでカーネル法を優越する。 非凸が重要だが、統計理論では最適化誤差を考えていない。 そこも含めたアプローチをしたい。

NNの横幅を無限に漸近させたときはよく研究されている。 有限でもランジュバン動力学で扱えていたが大きいモデルでは次元の呪いに苦しむ。 そこで、無限次元でのランジュバン動力学を構築する。

NTKレジュメとMF(平均場)レジュメが代表的な過剰パラメータ化のDNN解析。

NTKはNNを線形近似によってカーネル法とみなす方法。 横幅をサンプルサイズより大きなオーダーにしないと経験損失0への収束を証明できないし、カーネル法にしかならない。

平均場解析はパラメータの分布の最適化とみなす。 NNの各重みをある分布の粒子と考え、勾配法はその粒子を移動させると考える。 有限個の粒子をそのまま扱うことは難しいため、粒子数無限大の極限を考える。 $1/M \sum a_i \eta(w_iT x)$を$\int a\eta(wT x)\rho(a,w)$とみなす。連続方程式のWasserstein勾配流でダイナミクスを表現できる。

輸送写像を用いたNNの学習。 パラメータの分布が勾配法によって変化する過程を写像として考える。 初期値のパラメータ分布から輸送写像へ問題の置き換えを行うと、パラメータ分布の仮定をかなり緩くできる。 無限・有限横幅を統一的に扱える。

Noisy Gradient Descentを考える。SGDはその有名な例。 普通のSGDはフラットな局所解に落ちやすいことが汎化性能が高い理由という説がある。 SGDダイナミクスは損失函数を平滑化しているということも期待される。 ランジュバン動力学ではGDにブラウン運動をつけたものを考える。 このとき、パラメータの分布の定常分布がベイズ事後分布とみなせるようになることが汎化の理由。

無事収束が無限次元でも有限次元でも同様に示せた。

(後半質問打ち込んでて聞きそびれた)

QA

  • ベイズ事後分布とみなせるから汎化ってどゆこと?
    • ベイズ推論したわけではないがベイズ事後分布とみなせる粒子の分布が得られる。
    • 実際にはベイズ事後分布への収束を証明する必要があるというかそれを証明して汎化誤差評価した。
    • 陽な事前分布がなくてもランジュバンな揺らぎによって事後分布を作るような動きができたというのがおいしいところ。

企画 学習理論 1-3(順番変更)

積分表現理論に出てくる測度はどこに住んでいるのか?

積分表現は無限次元の連続モデルを考えているが、ディラックδ測度を使うと有限離散モデルも表現可能。

リッジレット変換は複素測度(負数も虚数も認める)を与えるような変換。 再構成できるような積分表現の測度をadmissibleという(活性化函数も条件に含まれるがReLUとか使える)。

リッジレット変換は積分表現の逆作用素になっている。 これを示すのにフーリエ変換表示を使ってラドン変換でめっちゃ頑張る。

再構成公式をいくつか作った。 球面とかシュティーフェル多様体上で成り立つようにできた。 行列の極座標変換の積分公式でシュティーフェル多様体が出てくる。 つまりパラメータはベクトル空間ではなく多様体上にある、という話。

リッジレット解析はラドン変換で写った先でのウェーブレット解析である。 再構成公式を証明すると構成的な万能近似が示せる。 パラメータ空間は対称な多様体として理解できる。デカルト座標と異なり内在的で自然な座標を作れる。

QA

  • 過剰パラメータ化のときパラメータ次元を大きくしてからサンプルサイズを大きくしてるが逆だとどう?
    • 有限モデルなのですぐに答えるのは難しい。データ数大きいのでノイズが小さくなる?
    • 二重降下の理論のようにd/n比を与えた時のレートとかわかると面白いかも。
  • パラメータ空間に幾何学的特徴が入るのはなんで?
    • 活性化函数の中で行う内積の形状に依存してそれを自然に表現する群を考えると出てくる。
  • d-planeを離散化するとどうなる?
    • elementwiseな場合は結局$\sum(a-b)$になる。
    • そういうのに対応するNNはわかってない
  • 再構成公式を使うと、つまりリッジレット変換を使うと学習済みNNのパラメータからデータセットが再構成できる?
    • null spaceがあるのでそこは無理だが、ある程度再構成できると考えられる。

企画 学習理論 1-2

EURECOM:フランスの大学院大学でニース近くにある。NAISTのノリで新しい施設。

ガウス過程とカーネル法の話

正定値カーネルがよくMLで使われており、非線形関係の学習に使われがち。

ガウス過程を使ったベイズ学習は代表例の一つ。 正定値カーネルは共分散函数であり、ガウス過程回帰とかベイズ最適化とかprobabilistic numericsに使ったりする。

もう一つの代表例はカーネル法。RKHSを使う。 正定値カーネルは再生核である。 カーネルリッジ回帰、SVMカーネル平均埋め込み、などなど。

本講演ではガウス過程とカーネル法非線形回帰におけるノンパラな問題での関係を話す。 等価性が良く知られてはいるが、GP事前分布のサンプルパスがRKHSに対応しないことも知られている。 これは仮説空間の設定に依存する。表面的な関係に過ぎないのではないか? →そんなことはないぞ、というのが今回の話。 カギとなるのはRKHSアプローチにおける複雑性の扱いはRKHSそのものとモデルの話それぞれがあるというところ。

以下、正定値カーネルを単にカーネルという。

マタンカーネルが重要。 これは第2種ベッセル函数を使って定義される。 ハイパラαによってラプラスカーネル(α=1/2)やガウスカーネル(α→無限)になる。 αは滑らかさを表す量である。 マタンカーネルそのものもgeostatisticsとかで使われてるらしい。ベイズ最適化も。

ガウス過程回帰:

  • 平均0で共分散函数kのGPを事前分布とする
  • データが得られた時に、ノイズ分散を用いて尤度モデルを作ってあげて素直に事後分布を計算
  • 事後分布もまたガウス過程になる(尤度モデルがガウシアンなら)

カーネルリッジ回帰:

  • これも推定結果が閉形式で得られる

形式的等価性: 平均函数とかが同じ形

GPのサンプルパス: RKHSに比べると「荒く」なる。 マタンカーネルのRKHSを考えてあげると滑らかさパラメータがGPより大きくなる。 前者はα+d/2で後者はα。

GPでは事前分布を仮説空間のように扱っており、事前分布が正しい(真の函数を発生可能)とするならばRKHSに確率1で属さなくなる。

マタンカーネルによるGP回帰の収束レートを解析すると、 そのサンプルパスの滑らかさはαで、真の函数のそれがβとすると、これらの最小値を使ってレートを書ける。 収束レートはα=βのとき最大でminimax最適になる。 つまりGP回帰がminimax最適でうまくいくためにはGP事前分布が真の函数と同じ滑らかさを持っていなければならない。

マタンカーネルカーネルリッジ回帰も同様に解析する。 正則化定数をサンプルサイズに依存させると、こちらも真の函数の滑らかさをβとするとき、 RKHSの滑らかさs=α+d/2≧βとなってもよく、そのときminimax最適が実現できる。

GPがminimax最適になるときならカーネル法と等価になってるのでレートを考えることで本質的に見たってこと?

11/25

企画2-1

やりたいこと:ものつくりとCSの融合 デザイナーに賢いソフトウェアを提供することですごいものを作りたい。

3Dプリンタなど工作機械が身近になったがそれを扱うソフトウェアは発展途上→なんとかしたい

服の型紙から服という3次元形状を起こすのは仕立て屋さんの職人芸。 対話的に型紙と3Dモデルを行き来できると楽にできるのでそれをつくった。 サッカディロという怪獣の服も設計できる。 マウスの座標を保持して差分計算してを繰り返すと大変だが、差分だけ保持すれば楽というもの。

インタラクティブな設計システムは他にもある。 造形物の弱いところをすぐに知れたり、スタンフォードバニーを作ったり。

計算空気力学:3D形状に対してメッシュをとってNS方程式を頑張って解くというとても時間かかる処理 メッシュやNS方程式が重たいので回帰函数で置き換えたい。 回帰函数にするにはtidyデータが必要なので入力形状や出力をどう整理するか、 学習に伴う不確かさを設計者にどうFBするかが鍵となる。

トポロジーが一定でない三角形やNURBSメッシュはMLに使えない。 どうすりゃいいですか? 少ない次元数でできるだけ線型に近い応答をしてくれるパラメータ化をしたい。 問題ごとに良いパラメータは異なるので紙飛行機、3次元タコ、自動車とそれぞれいろいろやってきた。

ユーザが紙飛行機をデザインするとどのように飛ぶかの軌跡を教えてくれるツールを作成した。 なかなか遠くまで飛ばすのは難しいので自動最適化で飛びやすいようにもできる便利ツール。 MLを適用する際に訓練用の紙飛行機を用意して何百回も飛ばして軌跡をトラッキングする。 飛行機→軌跡のパラメータをこの生データから作る。 翼についても空力学で用いられる量を入出力とした。 翼の形も大事な入力だが、これは短冊で翼を分けることでパラメータ化できた。

3次元凧を作るときは全方向の空気力学を考える必要がある。 まともに解くのは辛い。いろいろものを落としてトラッキングしてデータを作って回帰した。 紙吹雪シミュレーションや3次元凧の部品をこれで実現。

車体計上設計:空気抵抗係数をいかに減らすか(燃費にとても効く) 見た目がカッコイイ必要があるので難しい。インタラクティブに作れると嬉しい。 3次元形状のパラメータ化は直方体から曲面まで階層的に形状を作ることで実現。 ガウス過程で最適化? 回帰函数による抵抗係数のバラツキは人間よりも少なかった。

QA

  • 任意の形状で任意の音階出せる?
    • 難しい。共鳴が起こせるかどうかがかなり難しい(小さすぎても大きすぎてもダメ)
  • できた笛はすぐ吹ける?
    • 穴が多いと習得コストが指数関数的に(2^穴)で上がる
    • 吹きやすさをMLで扱うのは難しい
  • 紙飛行機って何回飛ばしてデータ作った?
    • 20形状を6回ずつくらい軌跡作った
    • 翼のパラメータは短冊の形で持たせているので飛行機の形状数そのものはさほどいらなかった
    • 屋内でデータを作った
  • 変な形の飛行機は飛ぶ?
    • 難しかった
  • 解けてない問題は?
    • 解けてないものが多い
    • 流れでも変形でも非定常な系は扱いにくい

企画2-2

農業のマルチモーダルデータへのML

農業の持続可能性はかなりアブナイ。 10-20年後を考えながら衰退する1次産業をなんとかしないといけない。

新規就農者や高齢者でも農業AIで負担軽減できれば良いのでは? 篤農家でなくても既存設備に後付けでやれるような仕組みにしたい。

現在の農業AIの事例

  • 雑草防除ロボット(除草剤量や費用を最適化して大きく削減)
  • 収穫ロボット(大変な負担だがイチゴやトマトでも動く、労働力不足対策)
  • 害虫や土壌の欠陥診断(葉っぱを写メると病害診断、どんな栄養が足りないかもレコメンド)
  • ドローン空撮による農場の状態診断(葉を広域に見るとどこの生育が遅れていてどこが病気かがわかる)
  • 気象や病気や害虫発生を予測

農業情報学会というものがある。

以下は発表者の成果。

しおれ検知は見た目でいいので水分センサーとかは要らなかった(やってみたけどうまくいかなかったし)。 温度湿度とかは取得する。 カメラが草の姿と茎の太さを取得してしおれを検知できるようになっている。 品種、培地、養液濃度など場所や農家によってバラバラであるが、しおれるという状況の画像は似通っている。 よってどこのハウスでも水やり支援ができた。甘いトマトを実現(茎の太さを考えるだけでも糖度9.9;フルーツトマト並みを実現)。 (ストレスをほどよくかけると甘くなるが枯れては意味がないというトレードオフを均衡できた) 茎の太さを検知するセンサーは高いし取り付けも難しいのでカメラと画像処理で実現した。

茎の太さと草姿の関係が大きいことが1日見てるとわかった(水やりの短周期、日照による長周期)。 しおれを見ると良いのでoptical flowで強調→ベクトル値のヒストグラムで説明変数を作成(HOOF) 画像データだけと環境データだけと両方を説明変数にしてSW-SVRで回帰すると、 時系列方向の追従特性が異なった。 画像データは局所的、環境データは大域的な追従をする傾向があり、組み合わせるといいとこどりができそう。 (RMSEとかRMAEとかも小さくはなってるがわずか) ↑マルチモーダルデータ

画像データを扱う時、人間がしおれを見るときどこを見てるかを考えてくりぬいた。 データ数を1/10にしてもうまく動くようにできた→ハウス特化モデルが作れる。

水やり点滴も自動で動くようにして、放置できるようになった。 水が多すぎると皮が破れてしまい売り物にならなくなったが、AI利用により可販率の高さも実現できた。

QA

  • 最初やるときどういう人と組んだ?
    • 農業情報の人と出会えた
    • 学会で会えた人と組んでいろいろやった
    • ↑静岡の研究所とは偶然組めた
  • 最初はデータがとれず何もできなかったがうまくできるようになったら反応も変わった?
    • 草姿が見えるようになったあたりから行ける感じになった
  • プロ農家の人の知見は千差万別? 異口同音?
    • 千差万別だし定式化も様々
    • 今回の研究は素人ながら環境情報や外見を統合して仮説を作れた、という理解
  • トマト以外への応用は?
    • 茎の太さが明確に変わるタイプのモノならそのまま使えるがそんな作物は多くない
    • プロ農家の知見をどう定式化して定量化するかがポイント

企画2-3

地震工学や応用力学を学び、防災工学を研究してきた。 データ科学できないか。

土木工学とは。 a.k.a. 社会基盤工学

  • 国土利用や都市マネジメントとのための技術体系
  • 都市計画、インフラの建設管理、防災、交通マネジメント、などなど
  • 発表者は防災がメイン

日本が抱える問題は少子高齢化とインフラの老朽化。 これが何を引き起こすかを考える。 生産層の負担増、都市(過密)や地方(過疎)の生活水準低下が起きる。 これが負のFBで悪化していく。

従来型の将来像は都市圏で経済圏を作ること。 スケールメリットによる高齢者支援コスト低減や建設管理するインフラ量の抑制が期待。 しかし過密と過疎を推進するものであった。

そこで新しい将来像として、自律分散型都市の国土利用が提案されている。 拠点都市だけでなく周辺都市も自立して発展して独自経済圏を保持しつつ、情報の流れでつながる。 住環境や労働環境選択の自由、適切な人口密度とサービスが確保できるし、感染症対応もできる。 しかしすべての市区町村を機能させないといけないためインフラコストが跳ね上がる(限界集落の数人のために数十億の道路が必要か)。 そんな山間部などの限界集落の安否確認も大きな手間である。

上記の手間を解消するためにIoTとAIが期待されている。 都市システムの効率的運用や災害状況把握にデータドリブンが期待される。

災害状況把握について:

人手で集めているのが現状だが人工衛星が利用できないか。 →解像度が荒くて限界。全壊と無被害を識別できる解像度じゃないどころか建物かも怪しい。 安直にCNNで分類しようとしてもダメダメ。

  • コアアイデア1:地震前後の画像を組み合わせてやればいいのでは?

  • コアアイデア2:構造物属性や築年代といった情報の追加を行えばいいのでは?

そこで画像とテーブルのマルチモーダルデータを扱う。 建物の倒壊を予測させると精度92%であてられた。

センサーデータは排他的ではないので衛星画像からドローンによる詳細画像までを組み合わせていきたい。

災害推移予測について:

降雨予測が重要。物理的手法が王道的で、基礎方程式とデータ同化。 大気の流体運動の方程式と水滴の粒子形成方程式を並列させて解いていく。 ミクロな系(水滴)の予測精度が難しいという課題がある。 初期条件に起因して短期予測も苦手というのも課題。

データ科学的な降雨予測ができないか。 観測データの時間外挿をするのがシンプルなアイデア。 雲の発達や減衰は追従できない。 DNNなら短期予測が得意そうだったが、物理モデルとの整合性や統合性の問題がある。 非線形外挿も原理的に困難である。

クープマン作用素解析を用いた分析。 非線形ダイナミクスを変換すると線型則が成り立つとするときに固有値を用いたモード分解を用いてデータから非線形性を再構成する方法。 ダイナミクスをあてにいく方法なのがかなり魅力的。 ただし、モード分解は空間パターンの時間振動に文化薄r手法なので、位置を変えながら変化する現象に適用できない。 そこで基礎方程式も用いて組み合わせてあげる。

QA

  • 少子高齢化は他の国だとどう?
    • 日本だけダントツなせいで参考にできる例がない。
    • 他の国の未来かもしれないのでリーディングする立場になれればとは思う。
  • 要素分解しても他の国や地域はない?
    • 個々の問題なら同様の課題感はある。
    • 複合的に絡み合っているのが日本の厳しいところなので還元主義的に扱えない。
  • 倒壊判定の正解率92%だがFPやFNを考えていたか?
    • 誤分類の半数以上はFNだった。
    • 被害有無の境目にあるような損傷具合のものは被害なしになっていた。
    • 境目にあるような物件は上空からはわからない壊れ方(住めるけど壊れてる、1階だけ壊れてるなど)。
    • ラベル予測するときの確率の閾値調整をするともうちょっとよくできるとは思う。
  • 河川が近いとか埋立地とか、地形モダリティも使えそうだけど考えてる?
    • かなり有用なモダリティである
    • 今後の研究では入れていきたいものである
    • 1つ1つの建物を見るレベルの地形区分はないのでそこをなんとかしようとしている
  • 時間が現在から離れるにつれて予測が困難になるものだが、不確定性の推定は?
    • ベイズ化とかで確率モデルにするとやれる。いろいろ研究がある

招待講演2

モデル説明とShapley Valueの話

Shapley値を使ったモデル説明について話す。 ゲーム理論で出てくる量。 あるプレイヤーのゲームに対する周辺化された貢献を表す。 ゲーム理論ではうまくいくがMLだとどうなのよって話。

ゲームプレイヤーをMLモデルの特徴量と考える。 Grand coalitionを函数値とする。

このとき、ある特徴量に対する条件付き分布やinterventional 分布も書ける。 f(x)=0.5x1 + 0.5x2なんかで試してみるとちゃんとx1とx2それぞれが0.5寄与すると出てくる。

Shapley value are sensititve to correlations between variables in the input. aldo sensitive to adversarial attacks. f(X,Y,Z) a.s. Y=Zとf(X,Y,Y)で全然違う結果が出てきてしまう。

Contrastive explanations: Shapley value of a feature gives what it versuses.

Shapley as recourse ?

Normative Critique: DSs don't have aclear model of what Shapley values mean DSs tend to rely on narrative to justify a model Increasing interpretability, 間違いにも気づきにくくなる

Quantifying the limits of Shapley values: when the boudaries? where we need to innovate?

With interaction case: identifiable f(x,y,z)=x+y+z g(x,y,z)=x+2yz they have same SHAP values.

Functional hypercubes: value functions' representation These gradients are their edges.

Inessential game <- linear model SHAP are easily computed

Not inessential case: how to compute close witness? Sq Error? SHAP is edge=>sq error of vectors?

この辺からついていけなかった

一般セッション2

例によってバラバラに見た。

一般2-3-1

線型回帰モデルの特徴選択の高速アルゴリズム;離散1次法 GLMに拡張する。

混合整数最適化による特徴選択が注目を集めている。 →離散一次法 評価関数の勾配のリプシッツ定数が必要。 GLMでそのまま使うと性能が悪いので、確率変動を使って改善する。

選択する特徴量はk個以下という制約をかけて損失を小さくするという定式化、

k個選択するときの離散一次法:

  • 初期化
  • 勾配降下方向に進み、絶対値の降順でk+1番目以降は0にする作用素で変化行係数を0にする
    • 更新式にリプシッツ定数が出現
  • トレーランス未満までロスが動かなくなる(収束する)まで繰り返す

GLMへの拡張では

  • 初期化
  • リプシッツ定数の推定量Lhatを上界函数が目的関数以上になるまで大きくする
  • 勾配降下方向に進み、絶対値の降順でk+1番目以降は0にする作用素で変化行係数を0にする
    • 更新式にリプシッツ定数が出現
  • トレーランス未満までロスが動かなくなる(収束する)まで繰り返す とする。 このままでも局所最適解にハマるので、作用素かます前に正規乱数を加える(k個残して0にしたあとは加えた乱数を除いて元の値にする)。

Lasso、ステップワイズ選択、離散一次法と比べると実験結果は有効そうだった。

QA

  • Lhatが大きくなりすぎるとどうなる?
    • 最適化が遅くなる。移動幅を調整している(?)
  • じわじわ非ゼロ係数の個数を減らしてもよさそうというか毎回やると局所解じゃない? 保証ある?
    • じわじわ小さくしていくのは試していない
    • どれくらいの正規乱数なら局所解を抜け出せるか(実験的に?)調整している
  • SGDよりこっち使う方がいいのはどんなとき?
    • SGDのするオンライン学習だと局所解から抜けれない(0に潰したあと復活できない)
  • 収束速度の比較だとどう?
    • Lassoが一番早い(数秒)
    • ステップワイズは遅い(30分)
    • 離散一次法や提案手法はステップワイズの半分くらい(15分)
  • 離散一次法はiterative hard thresholdingと同じ?
    • k個と明示的に指定する点が違う

一般2-5-2

順序回帰:目的変数のカテゴリに順序がついている

最適化の設計にあたっては代理リスク最小化を行う→予測器の設計。 経験リスク最小化で学習する→モデルの学習。

従来法1:一次元埋め込み 実数値学習器を使う。KカテゴリならK-1次元実ベクトルへの函数。 一致性の保証が壊れる。

従来法2:順序分解 隣接クラス軍に対する部分分類問題に分割して統合する。 部分問題になってしまうと矛盾が生じることがある。

提案手法は従来法のように予測器の設計で独特なことをせず学習部分で工夫した。 順序データの条件付確率分布は単峰性を持つと期待できるので、 それを利用した方法

QA

  • 普通の順序回帰は部分分類?
    • Yes
  • ニューラルにすると一致性壊れない?
    • 漸近的な特性とかは確かめる必要がある
  • 単峰性を持たなくても大丈夫?
    • 一致性については大丈夫だけど提案手法が多峰のときにうまく動くかどうかは未知数というかうまくいかない

一般2-2-3(旧4)

データの分布のよい近似を得たいのでGMMを使う。 EMとVBの最適化の比較評価を行ったらVBがうまくいった。

EMは過学習しやすいが、VBだと起きにくい。 (そりゃあね)

半導体製造設備装置のあるデータの分布を知りたいことが多い。 1000パターンくらいあるが、いろいろ複雑な形状やクラスタが出てきたりする。 外れ値だったり外れ値のクラスタがあったりする。外れ値のクラスタはそれは別のコンポーネントでデータの分布に入れたい。

EMは過学習起こして分布形状がぐちゃったりもする。VBはほどよくフィットしてくれる。 外れ値のクラスターについてはEMの方がフィットしやすい(ほんかか?)

QA

  • コンポーネント数の決め方
    • EMは1から50までのなかでAICが一番小さい奴
    • VBは50と決めうちしてディリクレ過程にやらせた
  • ハイパラは共通?
    • 共通(ディリクレ過程のも調整してない……)
  • 初期値は変えた?
    • 変えていろいろやった結果です
  • 定量評価は?
    • 対数尤度とか

一般2-2-4(旧5)

情報行列:フィッシャー情報行列とか。ヘッセ行列が出てくる

でっかいパラメータだと情報行列の計算はかなり難しい。 ライブラリがいろいろ出ているのでその性能比較をexactな結果と比較した。

PyHessianとBackpackが代表ライブラリ

前者はNNのロス形状を解析するのに使えるPyTorchとセットの子。 ヘッセ行列を直接は求めない。 BackPACKもPyTorch上の子。 ヘッセ行列を低ランク近似で求めてる(? クロネッカー因子分解)

MNISTを7x7に小さくした中規模NN(4210次元)でexactなヘッセ行列を計算し、 ライブラリと比較した。

PyHessianは固有値は一致していそうだが……(発表速くてよくわからん) BackPACKは最大固有値が小さくなった(速くてわからん)

QA

  • 最適化としてはヘッシアンの逆行列を求めたくなるがそこは効率化できるかしら
    • まだない or 知らない(ヘッシアン計算する応用先的に逆行列を知りたいので欲しい)
  • 何を調べたの結局? 何がうれしい?
    • 固有値上位10個とトレース値
    • 情報行列計算の近似性能を見るのに使った。NNのロスの形状把握で大きい固有値を見たいので逆行列じゃない形も重要
    • トレースが何の役に立つかは不明だが近似性能を見る規準として使った。
      • 正則化とかfree Hessianな最適化器に使われたりするみたい
  • BackPACKって何やってるんでしたっけ

一般2-5-5

(前の発表が長引いてほとんど聞けなかった) (動画見る限りレプリカ法で適応的プーリングを実現した話)

QA

  • 各プールはどう決める?
    • ランダムに決める(プールの患者数を一定とはする)。
    • 他の決め方だと、人手で扱いやすいプールの決め方とかある(理論的には扱いにくい)
    • もともと情報理論の問題の一つだったがグループテストをやるときにどういう意味があるのかは最近研究されはじめてきた
  • ノイズ混入率やスパース率の推定には今回の方法は使える?
    • Yes
    • 患者の特定は置いておいてという場合だとスパース率を求めることになる(この場合はもっと楽なモデルが作れる)
  • コロナのグループテストも関係ある?
    • 検査数を減らすもっとシンプルな方法が使われていると思う
    • 今回の結果でグループエラーを改善できそうだが、コロナの場合はそもそも検体採取時にエラーが生じるのでコロナに直接使うことは難しい

一般2-5-6

スパース転移学習:L1正則化を用いた理論保証付き転移学習法を提案

変わり続ける環境の中でうまく更新する方法 変わり方が常にスパースだという場合に使える方法を提案している。

品質管理はモデル更新が当たり前である。 このように絶えず変わる環境においてどう効率的に更新するかを考える。 このとき、高次元説明変数の一部が効くというスパースな状況を仮定する。 線型回帰なら、係数が0になる説明変数がいろいろ変わりうる状況。

提案手法Transfer Lasso $$objective_loss = error + \lambda(\alpha L1(\beta) + (1-\alpha) L1(\beta-\tilde{\beta}))$$ $\tilde{\beta}$は更新前のパラメータ(ソースパラメータ)

リッジで転移させる方法が既存研究にあるので、これのL1版である。

真のパラメータと推定結果の二乗誤差のバウンドがタイトに小さいことを証明できた。 ソースパラメータが正しい場合も正しくない場合もLassoより正確。

QA

  • 定常性仮定の確認は容易?
    • 確認するというよりどう使うかという点だが定常でも非定常でもパラメータの利用方法は変わらない(同様に推定できる)
  • ソースドメインとターゲットドメインの違いについて、共通すべき性質は何があるか?
    • 次元数は等しくなければならない。
    • ソースパラメータの誤差がバウンドに出てくるので、これが大きいとイマイチなことになる。
    • 悪い条件でもハイパラを調整すればlassoくらいにはなりそう
  • ハイパラはどうやって決めた?
    • 比率αは固定してもうまくいきそうだがCVで決めた
    • 正則化強度λはCVで決めた
  • 線型回帰以外にも使えそう?
    • ロスが変わる分には大丈夫そう
    • モデルを複雑にする場合はDNNでやってみたという話があるがあんまりうまくいっていない(リッジの方がおいしい)
  • ソースパラメータが正しいときに通常のlassoより正確になるのはなんで?
    • 正則化の方向が正解に近づける向きになるため(正則化項にあるソースパラメータがターゲットドメインにおける真値に近い場合うまくいくということ)

一般2-5-7

多次元系列データ:複数の系列があるようなデータ(遺伝子情報、脳波、IoTセンサー)

複数系列に共通する変化を検出することで、現象特有の原因を考察することに役立つ。 ただし検出された結果の統計的有意性は判定できない。 (誤検出や見逃しが起きることがあるためその確度が欲しい)

長さNの系列がD個あるとする。正規分布に従う。 系列間分散と系列内分散のテンソル積で分散共分散行列がかけていて既知とする。

分散固定なのでZ検定やt検定を使いたくなるが、今回の問題設定は仮説がデータに依存するため 検定としての妥当性を失うことになる。 (些細な変化でも帰無仮説を棄却して変化ありとしてしまう)

変化点検出後の推論はPost Selective Inferenceになる。 SIの枠組みは従来は条件付けが過剰だったが枠組みの刷新により検出力高く扱えるようになった。

実験では系列内分散は不偏分散を経験的に求め、系列間分散はなしとして実験した。

QA

  • この手法の検出力はどれくらいある?
    • 実験的には従来のSIの枠組みで作った手法より高くなっていることは分かる
  • 分散未知のときは?
    • exactに導出できない(近似による影響が載ってしまうので今回は考えていない、exactにこだわっている)
  • 時刻によってはどこか途切れている場合でも同じ方法が使えるか?
    • 形式的適用はできるが、欠損0埋めみたいなことをするので怖い

一般2-5-8

ドメイン適応にGBDTの一種であるDARTを使う。

少量のターゲットドメインのラベル付きデータ、大量のソースドメインのラベル付きデータがあるときの分類を考える。 平時→コロナの売上予測とか。

MART:GBDTのこと ブースティングで決定木を学習させる。 後半の木はGBDTに効いていないことが知られており、その対策でDARTを作っている。

DARTは一部をドロップアウトするMARTである。 これを使ってドメイン適応する。

UCIデータセット:いろんなベンチマークが置いてある

  • 分類
    • mushroom
    • banknote
    • default
  • 回帰
    • concrete
    • qsar
    • bike
    • traffic

どのデータでも一番または二番の性能だった(比較対象は転移なし、TrMARTやTrAdaBoost)

QA

  • 元のアンサンブルをベースにターゲットドメインのデータでそのままDARTするのとは比較しないの?
    • 要確認
  • 計算量が大きい点を回避できそう?
    • 問題なレベルで大きくはないが、小さくしていきたい
  • 何か転移仮定置いてるはずだけど何かない? 陰的に
    • ターゲットシフトによりyの分布が変わっているのはOKなことが実験的にわかった
  • 教師あり転移じゃない?
    • ターゲットのラベルを全く使わないわけではないので教師ありな気がする

11/26

企画3-1 DNNの視覚的な説明

DNNは画像処理タスクで非常に活躍しているが、解釈性がない。 判断根拠の解釈を行うというアプローチがひとつの領域となっている。 * 入力に対する感度:SmoothGrad * 個別データに対する出力傾向:LIME * 反応領域:GradCAMなどなど

CAM: Class Activation Mapping

特徴マップの平均値を求める写像 global average poolingを 各特徴マップに適用して重みづけ総和をとると特徴マップの反応ヒートマップが得られる。

GAPを用いたCAM作成は認識性能を落としてしまう……。 Attention Branch Networkという方法。 特徴抽出器とPerception Branchとにベースネットを分けて、 特徴抽出器のあとにAttention Branchもつけて、学習時はAttentionもPerceptionもどちらも使って 出力に対するロスを小さくさせる。 予測時は特徴抽出器で得た特徴マップをAttention Branchの出力をGAPしてCAMを得る。 これに対して予測処理自体はPerception Branchを使う。 Perception Branchの入力は特徴マップとAttention Branchの出力の積を使う。

Attention Branchは分類精度を改善する上にCAMを得られることが 実験的に示されている(いくつかの深さのResNetやその派生NNとImageNetに対して)。 画像分類だけでなく属性認識(顔が笑っているかネックレス装備かどうかなどの属性を同時出力するタスク) 人間の判断根拠として妥当っぽいCAMが得られた。

誤認識サンプルをうまく認識させるにはどうすりゃいいですか? 手動調整という方法がある(単に学習データに追加してもうまくいかない)。 ↑数千万数億のパラメータ数をどうするのよ…… Attention Mapを使うとどこをいじればよいかわかることがある。 Attention Mapの誤差を小さくするようなロスを加えて再学習することでうまくいく。 鳥の種類レベルの高度な間違いでもAttention Mapで修正できた例があった。

不良品検出もAttention Mapで確認できる。 何を以て不良品と判断しているかも見つつ、人の知見をそこにねじこむことで 不良品検出精度も上げることができる。

自動運転への応用もある。 画像からどんな運転操作(アクセルなど)をするかを学習するタスクにおいて、 加速シーンや減速シーンにおいてなぜ加減速したのかの根拠(目の前に人がいるなど)を Attention Mapから確認したり、上記と同様に取り込んだりできる。 テキストによる説明も付けられるらしい。

骨格データからの動作認識はGCNで認識させることが多い。 骨格をグラフとみなすためである。

QA

  • Attention追加で精度が悪化することもあるのでは?
    • ある画像に対して精度を良くするというファインチューニングをしている
    • 精度劣化しそうなのはそうなので、ちゃんと対象でない画像も考慮したAttention Mapになるよう学習させている
  • Attention Mapの修正コストは? サンプルサイズなど
    • ガンの識別に使う応用も進めているが、読影アノテーションコストが高いので数十枚しか用意できない
    • ガンの話は数十枚で医者が納得するアノテーションが得られるようになったので数十枚で十分なこともある

企画3-2 MLモデルの脆弱性と防御方法

修士卒してから1年目のPFNの人。

敵対的例ってなんぞや? 2013年が最初で、小さな意図的ノイズを混ぜることで出力を破壊できる(モデルのblind spotを付くイメージ)ことが報告

敵対的例はクラッキングに使えるためその対策は必要。 (標識ハックとかは自動運転で致命的)

敵対的例の定義は、損失函数をε近傍内で最大化させるようなデータのこと。

ここでは画像認識の敵対的例関連のお話をします。 作り方の例:パンダ→ギボン(サルの一種)

  • X:パンダの画像
  • y:パンダ画像の出力結果(分類確率)
  • y': ギボン100%の結果

||y-y'||^2を小さくするような重みに変えてやることでクラックできる。 入力も近くさせる場合は||X-X'||^2も加えて小さくする。

上記はネットワークの重みにアクセスして勾配も取得できる状況での作り方だが、もっとセキュアなところでもある。 攻撃者がアクセスできる情報がネットワーク構造やデータセットだけなど、限られた状況での攻撃方法が研究されている。

防衛方法としては、敵対的例に対するロスを正則化として加えて(あるいはそれそのものを)最小化することが挙げられる。

防衛法が提案されてもその甘さを指摘する攻撃がまた作られる。 →理論保証可能な防衛法を作る。

理論保証付きの例: レイヤごとの計算でリプシッツ定数の上界を各レイヤで得られる。 (素直に重み行列のスペクトラルノルムがリプシッツ定数の上界となる) リプシッツ定数が分類確率のマージンを与えられそうということからリプシッツマージンを提唱し、 理論保証付き防衛方法を提案した。

発展的な攻撃として、それなりに複数のデータを同一のノイズで識別性能を劇的に減らせるという研究がある。 特定ノイズどころか、周波数成分を1ついじるだけというものも。 サイケな柄のTシャツだなあ→監視カメラの検出器を回避できる服だった、という溶け込みやすい攻撃もある。

ここまでCV分野を主に扱ったが、NLPや音声についても攻撃が研究されている。

レッドオーシャンになってきてしまったので、怪しい論文が出てきたりもした。 扱うものがモノなので慎重に研究成果を評価していく必要がある。

QA

  • L2で画像距離測るのが普通なの?
    • メインストリームはL2やL∞
  • Transfer可能性はどういうとき成立?
  • 敵対的例を使ったクリーンデータの精度を上げる研究がある一方で敵対的な頑健性と精度のトレードオフも研究されているが矛盾しない?
    • 後者は自明なことだが、前者は実験的には成立している
    • 実験設定が違うから矛盾しない?(よくわからん)
  • 防衛研究の時は攻撃法を既知とする?
    • 既知ではない
    • 防衛研究の評価も対策していないところから攻撃する
      • L2で測った画像での学習をしたりすると、パッチベースの攻撃には弱かったりする
      • L2とL∞はどちらも相性良いということは知られている
  • コンペって何やるの?
    • 攻撃と防衛に分かれて戦う(両方提出できるので他人の攻撃から守ったり、他人の防衛を崩したりするくらいの意味)
  • 敵対的例のε近傍ロス以外はどんな定義ある?
    • 画像の類似度が高い範囲での攻撃
    • とにかく摂動の種類がいろいろある

企画3-3 フェイクメディア生成

本講演のフェイク: MLによって生成されたメディア(音声、顔映像、文章など)を想定する。 (ファクトチェックは考慮しない)

認証への攻撃は顔認証をマスクで攻撃、虹彩認証をコンタクトレンズで攻撃、など昔からあった。 ISOはpresentation attacks/presentation attack detection (PAD)と単語定義されてる。

フェイク音声

  • テキスト音声合成:テキスト→音声
  • Voice conversion: 誰かの声をまねするように音声変換

きれいな使い方:

  • 声を失う前に収録しておいてしゃべり続けられるようにする
  • 翻訳機の出力音声を自分の声にしていかにも他言語話者っぽくふるまえる
  • など

危ない使い方:

  • 本人の声でロック解除されるSiriなどをクラック
    • ウィルスファイルを開かせる
    • 高度なオレオレ詐欺
    • スケジュール改変
    • SNSで勝手にツイート
  • など

悪意ある音声が提示されたときにどうやって棄却するか?

  • ASVspoof

生成物を本物と識別するGANとは何が違うんや? 古典設定:

  • Attackerモデルが生成器なのでそこに勾配のプロパゲートはしない(識別機もブラックボックス
  • 防衛時も同様

ASVspoof設定:

  • PAD器がたくさんあるし、攻撃者もたくさんある。
  • いくつかの攻撃者は未知とする。
  • PAD間の統合は可能
  • これでも突破できたら詐称成功
  • Real/Fake分類というわけではない

世界中から組織を集めて音声生成と防御を実験

ほぼ聞き分け不可能なレベルで生成できているのが今の技術

DeepFake: 映像の顔を書き換える

  • AutoEncoderでくりぬく
  • AさんBさんの顔でAE作ってAさんの動画の顔をBさんで置き換える

防衛法で識別するときはカプセルネットワークを使うことでどこに着目してるかわかりやすくしている。 改ざんされた領域を特定する技術:セグメンテーションを用いる。 Fakeに使われた手法の同定も可能な範囲がある。

未知の攻撃手段に対して防衛を汎化させるのはやはり難しいが、セグメンテーションはまあまあ筋が良い。

テキスト生成:身近な問題です。 ショッピングサイトにはサクラがいることが多いが、NLPモデルで簡単かつ大量にサクラを生成できてしまう。 GPTとかでさくっとできてしまう。

まず口コミ攻撃は可能か? GPTであるレビューを一つ食わせると、所望のセンチメントを満足するかBERTで判定。 ちゃんとできてしまった。

PADは何かをフェイクかどうか識別するモデルなので、フェイクと主張するための根拠を提示できることが重要。 説明可能性はPADにおいても重要である。

QA

  • 未知の攻撃モデルに対処するのはナイーヴには難しそう。どんなヒントを入れてる?
    • 隠れ変数を入れたり、半教師ありにしたり
    • こうすれば大丈夫という方法論があるわけではないのでオープンプロブレム
    • 経験的にイケてる例としては、複数のモデルでアンサンブルするのがいい
  • 正解率で評価してるけどFPFNはどんなもん?
    • FP=FNとなる点で識別させている
    • FPやFNもだが、それぞれどんなエラーがどんなリスクをもたらすかを考慮した評価指標も提案されている

企画4-1

グラフにおける組合せ最適化~マッチングと最短経路

企画4はMLそのものというよりMLを動かすために必要なアルゴリズムの研究というかかわりがある。

組合せ最適化:ある条件を満たす組合せのうちある指標を最良にするものを求める

  • TSP:距離最短の全M点巡回経路
  • 変数選択:M個の変数のうち大事なのはどれか

計算量がでかい

  • TSP:M!
  • 変数洗濯:2M

次数の低い多項式にしたい

第一部:2部グラフにおけるマッチング

仕事と労働者、男女など2つの属性に分かれたグラフ。 マッチングはノードが1:1対応する(点素)という形のエッジ。

頂点被覆:すべての枝に交わる頂点集合のこと

マッチングの枝数の最大値は被服の頂点数の最小値に等しいことが知られている

  • 枝数kのマッチングをとれるか?
    • YES: 枝数kのマッチングが証拠
    • NO: 頂点数k-1以下の被覆が証拠
  • NPかつcoNPな問題とわかる。このような問題は経験的にPにできるっぽい

どうやって最大マッチングを見つける? 枝数kのマッチングを持っているときに

  • 枝数k+1のマッチング(改善)
  • 頂点数kの被覆を作る(kで最適であること)
  • 以上のどちらかを効率的に構成可能

↑増加道を構成していくことで実現(マッチングに入っているかどうかを追跡する有向グラフを作る)

第二部:一般グラフにおけるマッチング

二部グラフで成り立ったmin頂点被覆=maxマッチングが成り立たなくなる例が簡単に作れる(3点の完全グラフ)

もう少し一般的な例で観察してみると、マッチングの枝数≦まわりの点を被覆するの頂点数+Σfloor(被覆の頂点数/2)

実際、maxマッチング=min(まわりの点を被覆するの頂点数+Σfloor(被覆の頂点数/2))が成り立つ

増加道を作るときは被覆された範囲を1点につぶして構築し、後で展開すると本来のグラフのエッジが得られる。 このつぶす被覆のことを花という。

第三部:制約付き最短経路問題とマッチング

最短経路はTSPのより広い問題。ある地点から別の地点までの最短経路を求める。 エッジには重みがありがち。 ダイクストラ法で解ける。

では制約条件が付いたときはどうすりゃいいですか? 例えば頂点数が奇数であるという制約。

最短奇数パスを重み付きマッチングに帰着させる方法とか、最短非圧縮閉路と同様に最短非ゼロパスを求める問題に帰着させたりする。

重み付き線型マトロイドパリティへの条件付帰着とかいろいろある。

負の重みがあるグラフにおいてパスの合計重みが非負になるようにすることを保守的と言う。 保守的パスを求める問題もPにできるが、保守的かつ偶奇制約をかけると未解決問題になる。

QA

  • 奇数制約の応用的な状況は?
    • 特にない
    • 解けるのが面白い制約
  • トーラスに重み(?)があるときもグラフにできる?
    • 曲面を切り開きたいときにできるだけ切る長さを短くしたいときとかに重みがついたりする
  • トーラス上の平面グラフを一般の平面グラフにする?
    • Yes。辺を忘れるイメージ

企画4-2

密グラフ抽出に対する最適化モデルとアルゴリズム

グラフマイニングの問題

基礎事項

密グラフは人間関係ネットワークとかWebグラフ上の類似ページ、タンパク質ネットワークの類似機能など、似通った何かがぎゅうぎゅうになるような状況で現れる。

最適化理論を用いて密グラフをネットワークから抽出することを考える。 まず密さを測る評価関数が必要で、そのあと最適化をする。

最大クリーク問題: クリークとは全頂点ペアが枝を持つ部分グラフのことで、それの最大サイズを抽出する。 NP問題な上にP!=NPならばn^{1-ε}近似不可能。

実応用だとクリークを抽出するというのはかなり厳しい制約。 相互フォロー集団のみをとるようなもの。

最密部分グラフ問題: 誘導部分グラフ(部分集合をグラフにする)の中で最大密度を持つものを抽出する。

多項式時間の厳密アルゴリズムが知られている。多項式といいつつそれなりの時間はかかるので巨大だとつらい。 しかし貪欲法ベースで1/2-近似の線型時間アルゴリズムもある。

線型計画ベースの最密部分グラフは目的関数を正規化して連続緩和したもの。 10万枝くらいでも現実的な時間で解ける。 ただ得られるのは連続解なので戻す必要がある。 連続解の何かの集合で密度最大値を実現するものを返す(?)

最大流計算に基づく場合は、劣モジュラ函数最小化(n4くらい)を最大流に置き換えるという流れ。

貪欲法は密度最大化を貪欲にやる。最小次数頂点を除去しながら更新していく。

発展的な展開:

  • 大きいほど密度は上がりにくいが、従来法は大きいものを取ってきがちなので、より洗練された(ちょうどよく小さい)密グラフを取ってくる研究もある。
  • 外部から孤立気味なものをとってくるという方法も。
  • データの不確実性を考慮(枝の存在が確率的、重みが揺らぐ)

外部とのつながりの少ない密部分グラフ、枝重みが不確実なグラフをそれぞれ見ていく。

外部とのつながりが少ないものを抽出: 誘導部分グラフの最疎かっと問題を解く。これもまたNP困難。 密度と平均カットを組合せた評価関数を提案し、これを解くようにする。 解き方は前述のような線型計画や最大流計算に帰着させる。

枝重みが不確実なグラフ: グラフの真の枝重みが何らかの推定量の場合(タンパク質ネットワークにおけるタンパク質どうしの相互作用とか)。 普通の最密問題は真値がわかっているとしている。

そこで、ロバスト最適化の理論を用いて精度保証付きアルゴリズムを導出した。 真の重みがわからないが、得られている情報からサイアクな枝重みでの密度と最適値とのギャップを使う。 (仮定:重み集合に真の重みが含まれているとする) ロバスト最密部分グラフ問題はこれで解けるが過剰に保守的なので、 枝重みに関するサンプリングオラクルの存在を仮定すると改善される。

QA

  • 1/2近似ってほんとに1/2近似になっちゃう?
    • 経験的にはもっと良いものが得られる
    • ただし1/2しか出てこないような例も作れるので一般のグラフを考えている場合はタイトな評価でもある

企画4-3

グラフ上の確率的局所最適化

局所操作の微妙な違いが生み出す興味深い大域的性質の変化が興味

合意形成だと各エージェントの微小な変化の積み重ねで全体が変わったりする。 合意形成は主な応用先である。

PULL - PullVoting: 隣接頂点をランダムに選んで自分の色を更新

Bo2 - BestOf2: 隣接頂点2つ(復元抽出でランダム)と自分の色の3つで多数決とった結果に色を更新

↑葉の場合も同様。一様でない場合は一部ケースが研究されている。

PULLは昔から研究されてきた。 理論計算機科学においては分散環境下における合意や多数決へのシンプルなアプローチで、 Bo2はその高速かつ頑健な合意問題へのアプローチとして考察する

PULLとBo2はてきとーに1個選ぶだけなのでほんとシンプル。 中央集権者もいない。

  • 合意=全頂点の色が同じである状態。
  • 合意時間=合意に到達する前にかかるステップ数

PULLは二部グラフでない場合でも研究されていて合意時間はn3 log(n)

Bo2は一般ではわかってない。完全グラフ(自己ループつき)上ではきれいな結果を得ている。 完全グラフは最悪ケースでも(高確率で)log(n)の定数倍の合意時間であることが知られている。

完全グラフにおいてもPULLはnの定数倍かかるので、Bo2の定義にある局所的操作がPULLと大きく異なる影響を与えていることがわかる。

青赤の二色を考える。 PULLは赤色の頂点個数の期待値は変化しないが、Bo2は周りの状況に応じて増大する(多数決なので)。

完全グラフじゃないときでも同じようにきれいな結果が得られないか、という研究をしている。 例えばランダムな正則グラフ+条件の上ではO(log(n))で合意できることが証明されている。 この条件というのは、エッジ数(?)が√nとかある定数以上かつ初期バイアスのオーダー条件がある場合とか。 (初期バイアス:色の数の初期値の差の絶対値)

コミュニティ検知:合意時間が指数時間かかるようなケース。分断が生じるくらいにはコミュニティになるという状況を検知する。

確率ブロックモデルのグラフ上でBo2を考える。 2つのコミュニティ間のエッジが多ければ合意するし0本なら合意しない。 どんな閾値があるか? →確率ブロックモデルのグラフ間を結ぶ辺の確率をqとすると(二頂点が同じグラフにある確率をpとする)、q/p=√5-2が閾値になる。

正則確率ブロックモデル(ランダム正則グラフで作る確率ブロックモデル)におけるコミュニティ検知への応用がある。

素朴な疑問:BoKって考えれない?(K=2,3,4,...) もっと速くなってくれないか? →log(n)のまんまだった……。 ただ、kを√nくらいにすると定数時間であることが証明できる。

Bo2はO(√n)個の色を書き換えて合意させないようにする介入があっても、n-O(√n)個の色をそろえることができる(合意時間はO(log(n)))。

QA

  • 指数時間でも合意はするの?
    • 無限時間で収束することは間違いない(nnくらい?)
  • 分断が残るモデルはそもそもある?
    • 赤になろうとするのに確率pで青になるという間違えるモデルは研究されている
    • 分断残るモデルと関係あるかも?
  • 色のループはしない?
    • 二部グラフだとループする(PULLもBo2も)
    • 非二部グラフで~~というステートメントはそういうこと
  • q/p=√5-2のときはどうなる?
    • O(n)くらいで合意形成できるかな?(予想)

一般セッション

今日はずっと3-3にいるつもり

一般3-3-1

発表が琴葉葵ちゃんの声でやってた。かわいい。

LDAのRLCTを厳密に求めた。特異学習理論の研究。(厳密値解明ってすごくない?)

QA

  • RLCTをLDAの亜種でも求めれそう?
    • RLCTが厳密にわかるための十分条件はそんなに多くは研究されていない
    • なのでLDAの亜種を見た時にすぐ出せるかは非自明
  • 今回のRLCTを求めた計算は他の特異モデルでも使えそう?
    • 確率行列分解に帰着できれば使える

一般3-3-2

RKHSをもっと一般化した集合(C*モジュール)上での概念にした:RKHM。 これを使うと扱えるデータのクラスが広がってうれしい。

QA

  • RKHMじゃないと明らかに不幸になる(RKHSではうまくとらえられない)例は何かあるか?
    • 有限次元の例だとRKHSの有限テンソル積の空間で対応できる
    • PCAで函数空間上でやるにはRKHSの有限テンソル積の空間では扱えない
    • 実データは有限次元で観測されるとはいえ、データ数が一定ではないとか観測点が変化するなど函数データとみなしたい状況ではRKHMが有用と考えられる

一般3-3-3

LinGAMとスパースICAの合わせ技

尤度ベースにICAすれば既存の問題が解決できるのでは? という着想

疎結合を持つICAは既存だが、一致性もないしスパース解が得られるとも限らない。 NOTHEARSというものもあるが、一致性がケアされていない。

提案手法は非ガウスをパラメータにも用いてかつ一致性とスパース性をケアできるようにする。

  • 一致性;直交罰則を等式制約の緩和結果として与える(ノルム制約も入れる)
    • スパース性と両立させるのが難しいので等式制約にはしなかった

アルゴリズム: * ハイパラを尤度のCVで決める * 実際に最適化する * 2変数PとWを交互に最適化するときに、 * Pは簡単(SVDする) * Wは隠れ変数を冗長に入れてから自然勾配法を導出して使う * 修正自然勾配法 * 推定結果からの復元は既存手法を踏襲

数値実験は従来の方法と同じ設定にして検証に用いた。 既存手法より中次元でも高次元でもうまくいった。高次元の計算時間はDirectLinGAMくらい。

時系列復元問題を実データで行うことで実際の問題での性能を確認した。

QA

  • 因果モデルの一致性ってどういう意味?
    • 真の独立成分を復元しているときに、それがパラメータ空間内でヘッシアンが正定値であることを意味する。
    • ICAの一致性を気にしている。
  • 正則化の強さは固定したのはなぜ?
    • CVで決めるとちょっと計算が重たい
    • 大きく固定しておきたかった
  • スパース性を使う気持ちはわかるが非ガウスを有効活用しているかわかりにくい
    • 今回の目的関数:尤度関数
    • 仮定した分布は独立成分がスーパーガウシアンかサブガウシアンかを繰り返しの中で推定して、それぞれの場合ごとに異なるパラメータの双曲分布ライクなものを使うことで非ガウスしてる

一般3-3-4

ラベル無し事例集合→クラス事前確率推定

ラベル付き事例集合が正事例しかない上に無ラベルが混入(割りあいρ) ラベルなし事例集合もあり、そこに1-ρの正事例が混じってる。

ρとクラス事前確率πを推定する問題を扱う。

正事例のアンカー集合:正事例なら密度正でさもなくば零になる集合(負事例も同様に定義)

それぞれのアンカーセット上でそれぞれの密度比が相補的に0になるので推定される密度比も簡単な形で書ける(?)

人工データで実験:πやρをいろいろ変えたが、π=0.5近いケースはあんまりうまく動かなかったが他は優秀。

実データはUCIデータをいくつか使った(回帰用なら中央値で2分して分類に変えた)。

QA

  • アンカー集合上で密度比は発散しない?
    • 正負のアンカー集合はp_0とp_1の零点に対応しかつそこでp_1とp_0が正の密度を持つとする問題設定だったため、発散はしない。
  • アンカー集合ってなんの部分集合?
    • データの部分集合
  • アンカー集合を求めるのはどうする?
    • 求めるというより仮定されている
  • 一般の密度比推定は密度比を直接推定してるが、密度推定してから比をとってたりする?
    • してないのでそこで誤差がでかくなることはない

一般3-3-5

ベイズアベレージングで因果推定とVB

  • 実験研究:RCTで因果推定できる
  • 観察研究:介入できないから様々なアプローチがされている
    • 構造方程式によりデータ生成過程をモデリングし、それを因果ダイアグラムで表すアプローチを想定する
    • ↑を構造的因果モデルという

線型な場合の介入効果の期待値は解析的に求まる。

いろいろ仮定を置いて事後平均をある程度解析的に求めれるようにする →spike and slab分布で表現できる →無限混合ガウス(Gaussian Scale Mixture)でフィット(GMMライクなのでVBとかやりやすい)

QA

  • 事前分布は一般グラフではなくDAG上?
    • DAG上
    • あらかじめフルモデルがあり、その部分モデルがtrueと考えている
    • これらのグラフたちの上の事前分布がある想定
  • 事後平均をMCMCしちゃだめ?
    • 積分計算をMCMCでやるのは考えられるが欠点2点
      • この事後平均だけで計算量が大きい
      • 近似をいろいろやってること前提なのでここはMAPにした
  • 全部MCMCにするのは?
    • それは検討してなかった(できるかわからない)
  • グラフの形が違うと行楽変数が変わってくるが、線型構造方程式以外にも使えそうか?
  • 矢印が存在する可能性がある位置、のグラフがDAGになるのは仮定? 有向の完全グラフでいい気がする
    • データ生成過程の仮定としてはその通りだが、アルゴリズム導出に必要だった

一般3-3-6

ロジスティック回帰:2値分類を扱う。

分類性能だけ見るなら生成モデルで分類をする必要はない(Vapnikも簡単な問題で解けるならそうしろと)。 →ほんまか?(ほんまだ、と言いたい)

生成モデルの方が識別モデルより高い分類性能が出せる報告はあった。 ナイーヴベイズという生成モデルが勝つ例も。

ただ、従来に比較は一方が不利な設定が多かったのでもっとフェアにかつ現実的な設定で比較する。 (理想的過ぎて学習できないものを設定に使っているからって不利ではなくない?)

ロジスティック汎化誤差により分類器の性能を測る。

識別的分類器の場合:経験ラデマッハ複雑度でバウンドできることは知られている。

生成的分類器の場合:ロジスティック回帰の最尤推定量が漸近正規性を持つのでこれもまたバウンドできる。

以上を比べるとデータ数が増えるほど~のふるまいは同じだが、データが不均衡なときの性能は生成的分類器の場合悪化する。

QA

  • 何が新しい?
    • 問題設定を統一した解析は今までなかった(?)
  • 生成モデルの結果がNBと同じになってるけどあってる?
    • ノルム評価が間に合わなかった(?)

一般3-3-7

交絡の存在を認めるLiNGAMの一般化

普通のLiNGAMは交絡がないとする。 X->YとY->Xのどちらなのかを推定したいという状況で使う。 →使い道が狭い。

本研究では一般的なケースを考える:共通雑音がXにもYにも乗っかっている=交絡があるケース。 2変数なら相互情報量、多変数ならKL情報量最小化で定式化する。

従来LiNGAM:ICAの特殊ケース。 外生変数を独立にするように(相互情報量を最小にするように)係数行列を求めている。

交絡がある場合は独立にするということではないが、変数の包含関係の半順序集合を考えると、そのうえの最短経路問題with相互(or KL)情報量の和を最小化、として定式化できる。

理論保証:KL情報量最小を大域的に探索する。 交絡がある場合も、ガウスの場合は識別不可能になる。

QA

  • 相互情報量で素直に回帰して真値が得られるのか?
    • 確かに回帰係数を選ばず残差でやってしまっているのがICAの意味での最小化とのギャップになってる
  • 一方にのみ交絡の影響があると狂う?
    • 回帰係数について交絡なしと同じ方法を使ってしまっている
    • 交絡の影響はそこについてはまだ調べきれていない

一般3-3-8

テストデータは学習データに含まれるカテゴリを分類するのが一般的な分類問題。

テストデータにしかないカテゴリもちゃんと分類できたほうがいいので、属性情報を用いたゼロショット学習を目標とする。

ゼロショット学習:学習時のデータに腹案れていないカテゴリのデータを分類するすべてのデータに共通する補助情報を用いて学習を行う方法(補助情報として動物分類なら身長や体重などが基になった高い大きいなどの属性データが使える)

データの特徴量から属性、属性からカテゴリへの予測という二段階を踏むのが従来のやり方。 本研究では連続値の属性でも扱えるように拡張する。

従来手法の1つ:DAP

DAP過学習しやすいので特徴量→属性生成モデルで推定するようにする。

DAPは属性値がカテゴリと考えているため大小を考えることができない→そこを連続化するのが今回のおいしいところ。

未知カテゴリは属性情報の空間での近さを考慮して最近傍カテゴリに分類させるようにする。 (事前にテストも含むすべてのカテゴリについて、属性とカテゴリの関係性をユニークに定めておく設定) (leakageじゃないの?)

QA

  • 属性値が連続というのはどれほど妥当な前提?
    • 画像なので恣意的に連続なものにしても問題なさそう、という実験。
  • 事前にテストカテゴリも含めて属性とカテゴリをユニークに定めてるけど、これleakageじゃない?
    • 前提条件として何を想定しているか:学習データは全カテゴリが集まっていない
    • 一般物体認識なんかはカテゴリがたくさんある
    • テストデータを使って定めたわけではない(?)

クロージング

ちょっと遅れてる状況なのでしばらく待機。

アンケート書いてね、プレゼン投票してね。

IBISML研究会賞の授賞式:

今回のワークショップではなく、IBISML研究会(予稿ありのやつ)の中でいいものを選ぶ。

受賞論文 Approximation Ratios of GNN for Combinatiorial Problems (Ryoma Sato, et al.) GNNの族がなす階層構造を明らかにするとともに、既存のGNNよりも表現力が高い新規GNNの導出を可能としており、GNNの今後の発展への寄与が目覚ましい、という理由。

ファイナリスト * 適応的空間分割に基づく連続値時系列データのためのPredicitve Sequence Mining * 局所的変分法による非補償型時系列IRT * 最頻値推定量を用いた主成分分析の提案 * Factotization machineにおけるスパース正則化を用いた組合せ特徴選択

IBIS2021来年度はどうなるか?

  • 2021/11/10-13
  • 北九州国際会議場 or/and オンライン
    • 今後のコロナなど状況次第
  • 焼きうどん、焼きカレー、河豚
  • NLP2021は同じ場所で2021/3月開催、これが実施できたらイケそう?

お疲れ様でした!

最後ちょっと連絡

  • 動画と資料は11/30 23:59まで公開
    • 累積動画再生数は5000回以上(1人平均5回)
  • アンケート書いてください
  • ベストプレゼンを選ぶための発表3件を投票してください
  • randomチャンネルにtry,keep,problem形式で書く
    • keep: 来年もやってほしいこと
    • try: 今年できなかったが来年もやってほしいこと
    • problem: どう解消すればいいかわからないけどなんか対策してほしいこと

コーヒーブレイクを少し開けておくのでわいわいしたい人どうぞ

*1:ギークな人が大っ嫌いそうな表現を使うと、コネ作り。

*2:21:30とか、最終日はもっと遅くまでとか。ちなみに学会は朝から夕方である。