Gemini, Google'23 - Githubissues

AkihikoWatanabe commented 9 months ago

https://blog.google/technology/ai/google-gemini-ai/

AkihikoWatanabe commented 9 months ago

多くのベンチマークでGPT4超えらしい

（追記1）テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview（最新モデル）のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。

（追記2） GSM8Kの結果も、GPT4に対してFair Comparisonではない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっている。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている（SFT）ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。

他にもFair ComparisonになっていないものはTextモダリティでの評価の表の文言を見るとありそうなので、この表がFair Comparisonをした結果を載せますという前提になっていない以上、Fair Comparisonっぽく書かれているものも本当にフェアにやってるのかよくわからんし、実際のところGPT-4-turboと比べて性能どうなんです?というのは一切わからない（そもそもGPT-4-turboとは比較していなさそうなのでFair Comparison以前の問題なのだが）。まあ論文ではなくてテクニカルレポートなので……

AkihikoWatanabe commented 9 months ago

テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

AkihikoWatanabe commented 9 months ago

Gemini Summary https://x.com/srush_nlp/status/1732427569352323401?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

AkihikoWatanabe commented 9 months ago

MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。ブログポスト中のGPT4のスコアは5-shotのもの（reportedと書かれているのでOpenAIが公表している数値と推察）であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていない点に注意。

レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…？

AkihikoWatanabe / paper_notes

Gemini, Google'23 #1181