ftnext / PyConTalkSummary

PyConで聞いたトークのサマリーをIssueに蓄積(arXivTimesリスペクト)
0 stars 0 forks source link

[mini Hiro 2020] Pythonとベイズ統計 #37

Open ftnext opened 4 years ago

ftnext commented 4 years ago

一言でいうと

データサイエンティストとしての差別化の1つの方向性としてベイズ統計・ベイズモデリングを紹介。 データがないところでもチャンスがある

発表資料リンク

https://hiroshima.pycon.jp/2020/speaker/HW_a_pythonista

発表者/所属

渡邉博文さん

発表日付

2020/10/10

概要

ベイズ統計と機械学習との関係

AIブーム Black Box的に使用できる(ちょっと学べば使える) →汎化性能・応答時間・前処理だけ気にしていればいいのか?

そもそも大量のラベル付きデータが集まらない 複雑なモデルには、多量のパラメタを調整するために、大量のデータが必要 モデルがデータの丸暗記するのが不安

クロスバリデーションで汎化性能測りきれているか? データの誤差、データが少ないとき、解釈性 →ベイズ統計を使うのが1つの回答

機械学習のアルゴリズムにはベイズ統計が入っている(PRML) 例:正則化項(事{前,後}分布)

尤度×事前分布/周辺尤度=事後分布 数式は同時確率 A, Bが起こるはAが起こってBが起こってもいいし、Bが起こってAが起こってもいいい。この数式展開から来ている

パラメタ推定の方法

MCMC法(マルコフ連鎖モンテカルロ法)←このあたりdezeroを思い出す NUTS

変分法:事後分布 ADVI

メジャーなのが上2つ

線形回帰を例にパラメタの事前分布を指定 正規分布を指定すると外れ値に釣られた 事前分布をスチューデントのt分布を指定すると外れ値を許容する 外れ値以外にフィット

階層モデル 8つのうち、1つはデータ少ない 他と似通った直線が引かれる お客さんの分類、それぞれデータ少なくても対応できそう

松尾研 鈴木さん博論 マルチモーダル モナリザの顔、笑っているように 生成モデル


[以下はオプション]

新規性・差分

ベイズ統計と機械学習との関係

トークで知って試したいこと

感想

差別化の方向としてのベイズ統計という捉え方はモチベーションが上がりました