【2024/06】Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

personabb commented 6 days ago

論文タイトル（原文まま）

Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

一言でいうと

7Bの言語モデルをGPT-4レベルに向上させるための、反復長さ正則化直接選好最適化（iLR-DPO）手法の提案と実証。

論文リンク

2406.11817v1.pdf

著者/所属機関

Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang

MMLab, CUHK
Shanghai AI Laboratory

投稿日付(yyyy/MM/dd)

2024/06/17

概要

In this paper,

直接選好最適化（DPO）を用いて、反復オンライン訓練による言語モデルの性能向上を図ります。本研究では、応答の質の向上が冗長性の増加につながることを指摘し、応答の長さをペナルティする反復長さ正則化DPO（iLR-DPO）を提案します。

As a result,

提案するiLR-DPOにより、7BモデルがGPT-4プレビューに対して50.5%の長さ制御勝率を達成し、他の標準的なベンチマークでも優れた性能を示しました。

先行研究と比べてどこがすごい？

従来のDPOは冗長性の増加が問題でしたが、iLR-DPOは応答の長さを制御することで、冗長性を抑えつつ高品質な応答を生成することができます。また、オープンソースの7BモデルでGPT-4レベルの性能を達成した点も注目されます。

技術や手法のキモはどこ？

反復長さ正則化DPO（iLR-DPO）を提案し、応答の長さをペナルティすることで冗長性を抑えます。
合成選好の収集と長さペナルティ付きDPOによる最適化を反復的に実施します。

どうやって有効だと検証した？

AlpacaEval 2.0、MT-Bench、Arena-Hard、OpenLLMリーダーボードなどの標準的なベンチマークを使用し、提案手法の有効性を評価しました。特に、長さ制御勝率や真実性評価（TruthfulQA）などの指標で優れた結果を示しています。

議論はある？

本研究では、主にGPT-4を人間の判断の代理として使用しているため、真の人間の選好とどの程度一致するかについてはさらなる検討が必要です。また、冗長性と長さの関係についても今後の研究が必要です。

結果

iLR-DPOは、7BモデルをGPT-4レベルに向上させる有効な手法であることが示されました。特に、長さ制御勝率が50.5%に達し、他のベンチマークでも優れた性能を示しました。

次に読むべき論文は？

Rafailov et al., 2024: Direct Preference Optimization
Park et al., 2024: Disentangling length from quality in direct preference optimization
Meng et al., 2024: Simple Preference Optimization with a Reference-Free Reward

手法の詳細（数式や理論展開など）

合成選好の収集: [ D_i = {(x,yw,yl)} ] ここで、ywは報酬モデルr(x,y)に基づいてylよりも優先されます。
長さ正則化DPO（LR-DPO）: [ \nablaθi+1E(x,yw,yl)∼Di[logσ(βpm+αlm)] ] ここで、pmは標準的な選好マージン、lmは長さマージンです。
エンドツーエンド反復訓練パイプライン: [ · · · → πθi → Di → πθi+1 → · · · ] 反復的にモデルを最適化します。

詳細は、論文の各セクションで説明されています。

personabb commented 6 days ago

https://chatgpt.com/g/g-DTk1KpYjg-pdf-translator/c/5431ccde-2bf4-46be-8b02-9ce58d479a0b

personabb commented 6 days ago

評価指標 https://tatsu-lab.github.io/alpaca_eval/

該当モデル https://huggingface.co/jieliu/Storm-7B

７BモデルでGPT4クラスのモデルに勝利している。

personabb / survey_paper