Open personabb opened 6 days ago
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
7Bの言語モデルをGPT-4レベルに向上させるための、反復長さ正則化直接選好最適化(iLR-DPO)手法の提案と実証。
2406.11817v1.pdf
Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
2024/06/17
直接選好最適化(DPO)を用いて、反復オンライン訓練による言語モデルの性能向上を図ります。本研究では、応答の質の向上が冗長性の増加につながることを指摘し、応答の長さをペナルティする反復長さ正則化DPO(iLR-DPO)を提案します。
提案するiLR-DPOにより、7BモデルがGPT-4プレビューに対して50.5%の長さ制御勝率を達成し、他の標準的なベンチマークでも優れた性能を示しました。
従来のDPOは冗長性の増加が問題でしたが、iLR-DPOは応答の長さを制御することで、冗長性を抑えつつ高品質な応答を生成することができます。また、オープンソースの7BモデルでGPT-4レベルの性能を達成した点も注目されます。
AlpacaEval 2.0、MT-Bench、Arena-Hard、OpenLLMリーダーボードなどの標準的なベンチマークを使用し、提案手法の有効性を評価しました。特に、長さ制御勝率や真実性評価(TruthfulQA)などの指標で優れた結果を示しています。
本研究では、主にGPT-4を人間の判断の代理として使用しているため、真の人間の選好とどの程度一致するかについてはさらなる検討が必要です。また、冗長性と長さの関係についても今後の研究が必要です。
iLR-DPOは、7BモデルをGPT-4レベルに向上させる有効な手法であることが示されました。特に、長さ制御勝率が50.5%に達し、他のベンチマークでも優れた性能を示しました。
iLR-DPOは、オープンソースの7Bモデルを用いて高い性能を達成しており、今後の研究においても有望な手法です。応答の冗長性を抑えることで、効率的なモデルの訓練が可能となります。
合成選好の収集: [ D_i = {(x,yw,yl)} ] ここで、ywは報酬モデルr(x,y)に基づいてylよりも優先されます。
長さ正則化DPO(LR-DPO): [ \nablaθi+1E(x,yw,yl)∼Di[logσ(βpm+αlm)] ] ここで、pmは標準的な選好マージン、lmは長さマージンです。
エンドツーエンド反復訓練パイプライン: [ · · · → πθi → Di → πθi+1 → · · · ] 反復的にモデルを最適化します。
詳細は、論文の各セクションで説明されています。
https://chatgpt.com/g/g-DTk1KpYjg-pdf-translator/c/5431ccde-2bf4-46be-8b02-9ce58d479a0b
評価指標 https://tatsu-lab.github.io/alpaca_eval/
該当モデル https://huggingface.co/jieliu/Storm-7B
7BモデルでGPT4クラスのモデルに勝利している。
論文タイトル(原文まま)
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
一言でいうと
7Bの言語モデルをGPT-4レベルに向上させるための、反復長さ正則化直接選好最適化(iLR-DPO)手法の提案と実証。
論文リンク
2406.11817v1.pdf
著者/所属機関
Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
投稿日付(yyyy/MM/dd)
2024/06/17
概要
In this paper,
直接選好最適化(DPO)を用いて、反復オンライン訓練による言語モデルの性能向上を図ります。本研究では、応答の質の向上が冗長性の増加につながることを指摘し、応答の長さをペナルティする反復長さ正則化DPO(iLR-DPO)を提案します。
As a result,
提案するiLR-DPOにより、7BモデルがGPT-4プレビューに対して50.5%の長さ制御勝率を達成し、他の標準的なベンチマークでも優れた性能を示しました。
先行研究と比べてどこがすごい?
従来のDPOは冗長性の増加が問題でしたが、iLR-DPOは応答の長さを制御することで、冗長性を抑えつつ高品質な応答を生成することができます。また、オープンソースの7BモデルでGPT-4レベルの性能を達成した点も注目されます。
技術や手法のキモはどこ?
どうやって有効だと検証した?
AlpacaEval 2.0、MT-Bench、Arena-Hard、OpenLLMリーダーボードなどの標準的なベンチマークを使用し、提案手法の有効性を評価しました。特に、長さ制御勝率や真実性評価(TruthfulQA)などの指標で優れた結果を示しています。
議論はある?
本研究では、主にGPT-4を人間の判断の代理として使用しているため、真の人間の選好とどの程度一致するかについてはさらなる検討が必要です。また、冗長性と長さの関係についても今後の研究が必要です。
結果
iLR-DPOは、7BモデルをGPT-4レベルに向上させる有効な手法であることが示されました。特に、長さ制御勝率が50.5%に達し、他のベンチマークでも優れた性能を示しました。
次に読むべき論文は?
コメント
iLR-DPOは、オープンソースの7Bモデルを用いて高い性能を達成しており、今後の研究においても有望な手法です。応答の冗長性を抑えることで、効率的なモデルの訓練が可能となります。
手法の詳細(数式や理論展開など)
合成選好の収集: [ D_i = {(x,yw,yl)} ] ここで、ywは報酬モデルr(x,y)に基づいてylよりも優先されます。
長さ正則化DPO(LR-DPO): [ \nablaθi+1E(x,yw,yl)∼Di[logσ(βpm+αlm)] ] ここで、pmは標準的な選好マージン、lmは長さマージンです。
エンドツーエンド反復訓練パイプライン: [ · · · → πθi → Di → πθi+1 → · · · ] 反復的にモデルを最適化します。
詳細は、論文の各セクションで説明されています。