質問テンプレート

kanojikajino commented 5 years ago

Labels から question を選ぶ
Assignees を kanojikajino にする

数式も打てないことはない

$\theta^\star = \mathrm{argmax}_{\theta\in\Theta}\mathcal{L}(\theta)$

seishinkikuchi commented 4 years ago

@kanojikajino 昨日の授業で質問した菊池です。EMアルゴリズムの元論文のURLを教えてもらいたいです。

kanojikajino commented 4 years ago

http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf この論文は Latent Dirichlet allocation （トピックモデルの元祖）での変分ベイズ法によるパラメタ推定（αとかβ）と、変分推論を用いた潜在変数（θとかz）の推定を紹介しています。またそこで引用されている https://people.eecs.berkeley.edu/~jordan/papers/variational-intro.pdf でも変分推論の紹介がされているので、拾い読みしてみるといいかもしれません。不等式っぽいのが書いてあるところは大体下界を求めているっぽいです。

質問時に補足し忘れたのですが、変分ベイズ法とEMアルゴリズムは違うものとして紹介されることが多いのですが、この授業では統一的に説明している点に注意ください。一言でいうと、変分ベイズ法の特殊ケースがEMアルゴリズムであるという認識です。以下、少し詳しく説明しておきます。

上記の論文の式(12)では対数尤度の下界を求めていて、式(13)では求めた下界と対数尤度との差分が、 q(θ, z | γ, φ) と p(θ, z | w, α, β) との間のKLダイバージェンスで書けることを示しています（これはトピックモデルに限らず一般の潜在変数モデルで成り立つ式です）。つまり、q は事後分布 p(θ, z | w, α, β) に近ければ近いほど、下界は対数尤度に近くなる、ということを示しています。

Gaussian mixture model の場合は、データが与えられていた元での潜在変数に関する事後分布を簡単に計算することができるので下界を導出するときに最適な q を用いることができる一方、トピックモデルの場合には事後分布を計算するのは計算量的に困難です（5.1節でもこの点は議論されています）。ここが EM アルゴリズムと変分ベイズ法の違いで、

モデルを用いて事後分布を計算することが難しいので、事後分布を近似する分布 q を持ってきてなるべく事後分布に近い q （けど等しくはないもの）を推定して、それを用いて下界を計算するのが変分ベイズ法
事後分布を計算することが簡単なので、それを用いて下界を計算するのが EM アルゴリズムかなと思います。

変分推論や変分ベイズ法を紹介している文献は色々ありますがその多くは「事後分布が計算困難なのでいい感じに近似したい」というモチベーションだけを述べて式(12)のような下界の式を導出しているので、なぜこういう下界を求めるのかというところについては書かれていないかもしれません...。

seishinkikuchi commented 4 years ago

分かりやすい解説ありがとうございます。自分でも読んでみましたが、特に式(12)について詳しく書いてはいなそうでした。理由があって式(12)を使ってるというより、式(12)を使えば簡単に説明できるからと解釈した方がいいようですね。

kanojikajino commented 4 years ago

はい、 GMM に対する EM アルゴリズムについては大体そんなもんかなと思います。

個人的にはEMアルゴリズムの必要性や導出の気持ちを説明するのは難しいと感じています。GMMの場合は勾配法で最尤推定することも計算量的には可能なので。 Pattern Recognition and Machine Learning の9章でもEMアルゴリズムが紹介されていますが、いまいち歯切れの悪い説明かなと。

なので私の立場は、

一般に潜在変数を含んだモデルの最尤推定に式(12) を使うことができる
その利点は以下の二つで、特に前者がとても大事
1. 潜在変数の周辺化が計算量的に困難な場合でも計算できることが多い
2. 潜在変数の推定（E-step = qのアップデート）とパラメタのアップデート（M-step）を交互に繰り返すという構造の最尤推定アルゴリズムを作りやすい
GMM の場合（つまりEMアルゴリズム）は i. に関する困難がないのでこの枠組みを使わなくてもいいけど、この枠組みを使うと ii. の性質から綺麗なアルゴリズムが導出できるという感じです

seishinkikuchi commented 4 years ago

丁寧に解説していただきありがとうございます。今回の課題では十分理解しきれていないので、あまりいいレポートにできませんでしたが、トピックモデルに興味が持てたので、自分なりに勉強してみようと思います。

kanojikajino commented 4 years ago

レポート課題お疲れ様でした。また今後勉強していく際に何か疑問点があればお気軽に聞いてください。

kanojikajino / lecture

質問テンプレート #2