nogawanogawa / paper_memo

4 stars 0 forks source link

Chain-of-Thought Reasoning Without Prompting #121

Closed nogawanogawa closed 2 months ago

nogawanogawa commented 2 months ago

論文URL

https://arxiv.org/abs/2402.10200

著者

Xuezhi Wang, Denny Zhou

会議

?

背景

LLMは様々なベンチマークにおいて優れた性能を達成しているが、こうした推論能力はプロンプトエンジニアリングによって引き出されている部分も大きい。 こうしたプロンプトエンジニアリングは効果的ではあるものの、タスク固有の知識をエンコードすることになるため、言語モデルの本質的な推論能力を評価することは逆に困難になっていく。

理想的には人間がプロンプトを修正したりすることなく独立して推論を行い、最適な回答を提供できるべきである。

目的

アプローチ

image

ひとことメモ

実装どうやってやるんだろうか

nogawanogawa commented 2 months ago

背景

LLMは様々なベンチマークにおいて優れた性能を達成しているが、こうした推論能力はプロンプトエンジニアリングによって引き出されている部分も大きい。 こうしたプロンプトエンジニアリングは効果的ではあるものの、タスク固有の知識をエンコードすることになるため、言語モデルの本質的な推論能力を評価することは逆に困難になっていく。

理想的には人間がプロンプトを修正したりすることなく独立して推論を行い、最適な回答を提供できるべきである。

nogawanogawa commented 2 months ago

目的

アプローチ

nogawanogawa commented 2 months ago

CoT decoding

概要

image

decoding path

image

k=0の貪欲デコーディングパスを通常考えるが、実際にはk>0の代替デコーディングパスも取りうるはずである。 このk=0とk>0のデコーディングパスを比較する。 最初のデコーディングステップで別のトップ𝑘(𝑘 > 0)トークンを探索すると多くの場合、自然なCoT推論が明らかになります。

要するに、Greedyではなくtop-kのデコーディングパスについて探索を行うようにデコーディングすると、勝手にCoTを裏でやってくれるようになる(プロンプト不要)はずである。

Extracting CoT Paths

我々のケースでは、最終的な回答のデコーディングに対するモデルの全体的な信頼度は、すべての関連する回答トークン𝑥𝑡に対するこれらの確率差を平均化することで近似されます。

nogawanogawa commented 2 months ago

評価

Accuracy

image

LLM間比較

image

モデルサイズ比較

image

inst tuned

image

k の評価

image