Closed kanojikajino closed 4 years ago
@kanojikajino 昨日の授業で質問した菊池です。EMアルゴリズムの元論文のURLを教えてもらいたいです。
http://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf この論文は Latent Dirichlet allocation (トピックモデルの元祖)での変分ベイズ法によるパラメタ推定(αとかβ)と、変分推論を用いた潜在変数(θとかz)の推定を紹介しています。 またそこで引用されている https://people.eecs.berkeley.edu/~jordan/papers/variational-intro.pdf でも変分推論の紹介がされているので、拾い読みしてみるといいかもしれません。不等式っぽいのが書いてあるところは大体下界を求めているっぽいです。
質問時に補足し忘れたのですが、変分ベイズ法とEMアルゴリズムは違うものとして紹介されることが多いのですが、この授業では統一的に説明している点に注意ください。一言でいうと、変分ベイズ法の特殊ケースがEMアルゴリズムであるという認識です。以下、少し詳しく説明しておきます。
上記の論文の式(12)では対数尤度の下界を求めていて、式(13)では求めた下界と対数尤度との差分が、 q(θ, z | γ, φ) と p(θ, z | w, α, β) との間のKLダイバージェンスで書けることを示しています(これはトピックモデルに限らず一般の潜在変数モデルで成り立つ式です)。つまり、q は事後分布 p(θ, z | w, α, β) に近ければ近いほど、下界は対数尤度に近くなる、ということを示しています。
Gaussian mixture model の場合は、データが与えられていた元での潜在変数に関する事後分布を簡単に計算することができるので下界を導出するときに最適な q を用いることができる一方、トピックモデルの場合には事後分布を計算するのは計算量的に困難です(5.1節でもこの点は議論されています)。ここが EM アルゴリズムと変分ベイズ法の違いで、
変分推論や変分ベイズ法を紹介している文献は色々ありますがその多くは「事後分布が計算困難なのでいい感じに近似したい」というモチベーションだけを述べて式(12)のような下界の式を導出しているので、なぜこういう下界を求めるのかというところについては書かれていないかもしれません...。
分かりやすい解説ありがとうございます。 自分でも読んでみましたが、特に式(12)について詳しく書いてはいなそうでした。 理由があって式(12)を使ってるというより、式(12)を使えば簡単に説明できるからと解釈した方がいいようですね。
はい、 GMM に対する EM アルゴリズムについては大体そんなもんかなと思います。
個人的にはEMアルゴリズムの必要性や導出の気持ちを説明するのは難しいと感じています。GMMの場合は勾配法で最尤推定することも計算量的には可能なので。 Pattern Recognition and Machine Learning の9章でもEMアルゴリズムが紹介されていますが、いまいち歯切れの悪い説明かなと。
なので私の立場は、
丁寧に解説していただきありがとうございます。 今回の課題では十分理解しきれていないので、あまりいいレポートにできませんでしたが、トピックモデルに興味が持てたので、自分なりに勉強してみようと思います。
レポート課題お疲れ様でした。また今後勉強していく際に何か疑問点があればお気軽に聞いてください。
kanojikajino
にする数式も打てないことはない