Practitioners commonly align large language models using pairwisepreferences, i.e., given labels of the type response A is preferred to responseB for a given input. Perhaps less commonly, methods have also been developedfor binary feedback, i.e. training models given labels of type response A isgood or bad. We show how an existing performant binary feedback method, theCringe Loss (Adolphs et al., 2022), can be generalized to the pairwisepreference setting using a simple soft margin extension. Pairwise Cringe Lossis straightforward to implement and efficient to train, and we find itoutperforms state-of-the-art preference optimization algorithms such as PPO andDPO on the AlpacaFarm benchmark.
Translation (by gpt-3.5-turbo)
一般的に、大規模な言語モデルをペアワイズの選好によって整列させることがよく行われます。つまり、与えられた入力に対して、応答Aが応答Bよりも好まれるというタイプのラベルを使用します。おそらくそれほど一般的ではありませんが、バイナリフィードバックのための方法も開発されています。つまり、応答Aが良いまたは悪いというタイプのラベルを使用してモデルをトレーニングします。私たちは、既存のパフォーマンスの高いバイナリフィードバック手法であるCringe Loss(Adolphs et al.、2022)が、シンプルなソフトマージンの拡張を使用してペアワイズ選好の設定に一般化できることを示します。ペアワイズCringe Lossは実装が簡単でトレーニング効率も良く、AlpacaFarmベンチマークにおいてPPOやDPOなどの最先端の選好最適化アルゴリズムよりも優れたパフォーマンスを発揮することがわかりました。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)