fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

大規模言語モデルによる推論のカギは忍耐 #779

Open fulfulggg opened 2 days ago

fulfulggg commented 2 days ago

タイトル: 大規模言語モデルによる推論のカギは忍耐

リンク: https://arxiv.org/abs/2411.13082

概要:

大規模言語モデル、特に思考連鎖(CoT)アプローチの最近の進歩により、複雑な問題解決能力が大幅に向上しました。しかし、既存のモデルは、ユーザーの好みに合わせて詳細な推論を簡潔さに犠牲にする傾向があるか、複雑な推論能力を学習するために大規模で高価な訓練データを必要とするため、複雑なタスクを解決する可能性が制限されています。このギャップを埋めるため、テスト時スケーリングの概念に基づき、新たな知識やスキルを導入することなく、モデルがより丁寧な推論スタイルを採用するように促すシンプルな方法を提案します。選好最適化アプローチを採用し、詳細な推論過程を正例、単純な回答を負例として生成することで、モデルが回答において徹底性を重視するように訓練します。その結果、軽量なデータセットのみで訓練することで、GSM8kで最大6.7%の性能向上を実証しました。

fulfulggg commented 2 days ago

論文要約

fulfulggg commented 2 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: