Closed nogawanogawa closed 2 months ago
LLMは様々なベンチマークにおいて優れた性能を達成しているが、こうした推論能力はプロンプトエンジニアリングによって引き出されている部分も大きい。 こうしたプロンプトエンジニアリングは効果的ではあるものの、タスク固有の知識をエンコードすることになるため、言語モデルの本質的な推論能力を評価することは逆に困難になっていく。
理想的には人間がプロンプトを修正したりすることなく独立して推論を行い、最適な回答を提供できるべきである。
k=0の貪欲デコーディングパスを通常考えるが、実際にはk>0の代替デコーディングパスも取りうるはずである。 このk=0とk>0のデコーディングパスを比較する。 最初のデコーディングステップで別のトップ𝑘(𝑘 > 0)トークンを探索すると多くの場合、自然なCoT推論が明らかになります。
要するに、Greedyではなくtop-kのデコーディングパスについて探索を行うようにデコーディングすると、勝手にCoTを裏でやってくれるようになる(プロンプト不要)はずである。
我々のケースでは、最終的な回答のデコーディングに対するモデルの全体的な信頼度は、すべての関連する回答トークン𝑥𝑡に対するこれらの確率差を平均化することで近似されます。
論文URL
https://arxiv.org/abs/2402.10200
著者
Xuezhi Wang, Denny Zhou
会議
?
背景
LLMは様々なベンチマークにおいて優れた性能を達成しているが、こうした推論能力はプロンプトエンジニアリングによって引き出されている部分も大きい。 こうしたプロンプトエンジニアリングは効果的ではあるものの、タスク固有の知識をエンコードすることになるため、言語モデルの本質的な推論能力を評価することは逆に困難になっていく。
理想的には人間がプロンプトを修正したりすることなく独立して推論を行い、最適な回答を提供できるべきである。
目的
アプローチ
ひとことメモ
実装どうやってやるんだろうか