[mini Hiro 2020] Pythonとベイズ統計

一言でいうと

データサイエンティストとしての差別化の1つの方向性としてベイズ統計・ベイズモデリングを紹介。データがないところでもチャンスがある

渡邉博文さん

2020/10/10

AIブーム Black Box的に使用できる（ちょっと学べば使える） →汎化性能・応答時間・前処理だけ気にしていればいいのか？

そもそも大量のラベル付きデータが集まらない 複雑なモデルには、多量のパラメタを調整するために、大量のデータが必要モデルがデータの丸暗記するのが不安

クロスバリデーションで汎化性能測りきれているか？データの誤差、データが少ないとき、解釈性 →ベイズ統計を使うのが1つの回答

機械学習のアルゴリズムにはベイズ統計が入っている（PRML）例：正則化項（事{前,後}分布）

尤度×事前分布/周辺尤度=事後分布数式は同時確率 A, Bが起こるはAが起こってBが起こってもいいし、Bが起こってAが起こってもいいい。この数式展開から来ている

MCMC法（マルコフ連鎖モンテカルロ法）←このあたりdezeroを思い出す NUTS

変分法：事後分布 ADVI

メジャーなのが上2つ

線形回帰を例にパラメタの事前分布を指定正規分布を指定すると外れ値に釣られた事前分布をスチューデントのt分布を指定すると外れ値を許容する外れ値以外にフィット

階層モデル 8つのうち、1つはデータ少ない他と似通った直線が引かれるお客さんの分類、それぞれデータ少なくても対応できそう

松尾研鈴木さん博論マルチモーダルモナリザの顔、笑っているように生成モデル

[以下はオプション]

ベイズ統計と機械学習との関係

差別化の方向としてのベイズ統計という捉え方はモチベーションが上がりました