カイヤン雑記帳

カイヤンがやったことを書いておいたり、ぼやきたいことを書き込んだりする場所

人生初のオンライン国際学会に参加した話(代数統計学会)

おはようございますまたはこんにちはまたはこんばんは.半年以上ぶりのカイヤンです.

最後の更新は社会人博士AdC記事でしたが,AdCなので2019年ですね. あれを書いているころはまさかこんな世の中になるとは思ってもみませんでしたし,在宅勤務もしたことがありませんでした. 今はむしろ年度変わってすぐを除けばずっと在宅勤務しているので,世の中何が起きるかわからないですね.2月末には彼女にもフられたし…….

さて,およそ7か月ぶりの更新ですが,その間にあった大きなこととしては時勢に伴う在宅勤務と博士入学以前の論文や共同研究論文が採択された話とオンライン学会に参加した話があります. 前者2つはコンプラ関係とか特定防止のために割愛させていただいて,オンラインでの国際学会参加について述べようと思います.

以下,本編です.

代数統計学

みなさまは代数統計学という分野をご存知でしょうか?(ダメな大学生のレポートの書き出しみたいだぁ……)

代数統計学代数学統計学での利用の一つであり,統計学に現れる代数構造を対象とした応用数学です. 古典的にはマルコフ基底を用いた実験計画法の提案や解析といった研究がされていました.近年では,データやパラメータが持つ代数構造に注目したものに限定して代数統計学と言うこともあるようです(Ref. Wikipedia).例えば,進化生物学やバイオインフォマティクスでおなじみの系統樹データはただのユークリッド空間ではなくGrassmanianという代数多様体上の点になっており,そういったデータを扱う手法の研究がされています.また,以前書いた以下のとてもゆるふわな論文紹介記事で紹介している特異学習理論はパラメータ空間の重要な箇所(KL(真||モデル)の零点)が代数多様体になっていて,そこでの特異点解消が重要となっていました.すなわち特異学習理論は代数統計学と統計的学習理論の共通部分(の一つ)です.統計的機械学習コミュニティよりもこちらの方が特異学習理論のプレゼンスは高いように見えました. chijan.hatenablog.jp

この代数統計学コミュニティの今年の学会がAlgebraic Statistics 2020でした. 今年はCOVID-19の影響もあってオンラインでミニ仮想会議を開催するという形でした.

私は普段は機械学習・学習理論コミュニティの学会(IBIS)に参加しがちな上に,オンラインでの学会というのも初めてでしたので二重で新鮮な学会でした.

学会の様子

オンライン学会としての様子

上記HPのように発表者は各曜日ごとに4人で合計20人でした.ミニカンファレンスということで予定していた招待講演は見送りになってしまったようです*1. プログラムのように毎日2時間の1セッションがあるだけのこじんまりとした学会ですが,それがかえって良い雰囲気を出していました.

オンラインであることの最大のメリットは自宅から参加や発表ができることです.そして最大のデメリットでもあります――時差がどうしても存在するためです. ハワイの朝7時は日本の深夜2時です.日本からの発表者は2名で参加者は10名いない程度でしたが,2時から4時という始まりは真っ暗で終わったら外が明るい絶妙な時間帯に起きていなければなりませんでした.セッションが終わると,オフラインの学会(略してオフ会)のときのコーヒーブレイクのような場としてGoogleMeetでWeb会議できる形になっていましたが,日本勢はほとんどいなかったと思います.参加はしてないのですが,キャリア相談部屋も作られていたのが興味深かったです.ずいぶんと学生にフレンドリーな雰囲気でした.

研究会としての様子

肝心の各種講演ですが,領域名の知名度とは裏腹に非常に多様な発表がされていました.いつもの参加報告記事のようにそれぞれを取り上げたいところですが,時間帯のこともあってすべてを聴講できていなかったり筆者の英語力(もしかしたら数学力も)の問題で理解できなかったものもあったので全体的な様子について書こうと思います.

まず,そもそもとしてこの学会は査読があってプロシーディングスが出るタイプの国際会議ではなく,アブストラクトを提出すれば(よほど変でなければ)誰でも発表できる,日本国内でよく行われている研究会のスタイルに近いものでした.機械学習は計算機科学の影響からか査読がガチャ厳しい国際会議が多いのに対し,統計学では査読付きの業績としては雑誌論文がメインで国際会議は査読がほとんどない,交流や紹介の場のようです.日本の国内会議のように,発表済みの研究を紹介する場としても使えます.

上記のような学会で,ある人はプレプリント段階の研究を紹介して共同研究者を募ったり,別の人はこれまで雑誌に通してきた自分の研究のまとめを発表していたりしました.発表の位置づけも多様であれば内容も多様で,代数多様体上の離散確率変数がデータとなっているような状況での手法提案や理論解析(モデルの識別可能性など)の発表や,特異学習理論の発表,さらには画像の超解像の理論と方法まで様々でしたが,機械学習コミュニティにこもっていたら聞けないようなここでしか聞けない話が非常に多いように感じました.例えば,画像の超解像はDLが席巻していますが,信号処理の一環としての超解像に現れる代数的な構造と超解像アルゴリズムが本学会の最後の講演でした.機械学習統計学は統計的推測を研究する領域としてほとんど違いはないものの,コミュニティとしてはかなり風土が違うなあと思ったりしました.

全体の傾向が全くないというわけではなく,やはり代数統計学の本流としてデータの空間が持つ代数構造を研究することで識別可能性を論じたり,そのような空間のデータに対してうまく動くアルゴリズムを提案したりといったものが多くありました.応用先のデータとしては系統樹が非常に多くありましたので,実はかなりバイオインフォマティクスと親和性が高いのではないかと思われます*2.ほぼすべての発表に定理があるのも特徴的で,その発表の方法も機械学習系で(理論系でも)よく見るような新規性や有用性をひたすらアピールするようなものではなく,著者が行った理論構築を聴講者が追従していけるような発表が多めでした.例えば,応用系のモチベーション付けや有用性アピールよりも主結果の説明に必要な数学の諸概念の解説に発表時間の多くを割いているようでした.個人的にはそういう発表の方が論文を読むよりも多くを得られる・時間を割いて発表を聞く意味があるように感じて好きです.

まとめ

  • 代数統計学とは統計学に現れる代数構造を対象とした応用数学であり,データやパラメータの空間が代数多様体の場合に何が起きるかやそこでうまく動くアルゴリズムが研究されています.
  • Algebraic Statistics 2020という代数統計学コミュニティの国際会議が6月に開催されました.時勢によりオンラインでのミニカンファレンスの形でした.
  • 統計的推測という点では機械学習と同じような問題を大枠としては考えるものの,機械学習コミュニティとはかなり毛色が違った視点や問題設定が多く,新鮮でした.
  • 発表の方法も機械学習コミュニティで一般的な新規性と有用性をアピールするものよりも,発表者が理論を作っていった課程を聴講者が追従するのをサポートするような発表スタンスが多く見られました.

会社の許可が出れば来年はハワイまで赴いて本大会に参加したいなあと思える空間でした(発表内容は高度なのですべてについていくのは大変でしたが).

*1:来年,本来の開催地であったハワイで開催予定のようです.1年後の春に状況が落ち着いていればよいのですが

*2:代数生物学という分野・コミュニティもあるようで,数学者と生物学者が組んで研究を進めているようです.渡辺澄夫先生の過去の参加記録によれば,数学者と生物学者がお互いにわからないことをユーモラスに教えあうような場もあったとか.