Open fulfulggg opened 2 days ago
大規模言語モデルは複雑な問題解決が得意になってきていますが、複雑な推論をするには大規模な訓練データが必要だったり、逆に簡潔すぎる回答を返す傾向がありました。
この論文では、モデルに新たな知識を教えることなく、より丁寧に推論させる簡単な方法を提案しています。
具体的には、「詳細な推論過程」を良い例、「シンプルな回答」を悪い例としてモデルを訓練する「選好最適化」という手法を用います。
この方法により、少ない訓練データでも、数学問題データセット(GSM8k)で最大6.7%の性能向上を達成しました。 つまり、モデルはより「忍耐強く」考え、正解率を上げることができたということです。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
以下の新しいラベルが作成され、適用されました:
タイトル: 大規模言語モデルによる推論のカギは忍耐
リンク: https://arxiv.org/abs/2411.13082
概要:
大規模言語モデル、特に思考連鎖(CoT)アプローチの最近の進歩により、複雑な問題解決能力が大幅に向上しました。しかし、既存のモデルは、ユーザーの好みに合わせて詳細な推論を簡潔さに犠牲にする傾向があるか、複雑な推論能力を学習するために大規模で高価な訓練データを必要とするため、複雑なタスクを解決する可能性が制限されています。このギャップを埋めるため、テスト時スケーリングの概念に基づき、新たな知識やスキルを導入することなく、モデルがより丁寧な推論スタイルを採用するように促すシンプルな方法を提案します。選好最適化アプローチを採用し、詳細な推論過程を正例、単純な回答を負例として生成することで、モデルが回答において徹底性を重視するように訓練します。その結果、軽量なデータセットのみで訓練することで、GSM8kで最大6.7%の性能向上を実証しました。