AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
19 stars 0 forks source link

Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N/A, arXiv'24 #1257

Open AkihikoWatanabe opened 7 months ago

AkihikoWatanabe commented 7 months ago

URL

AkihikoWatanabe commented 7 months ago

複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。

著者スライドによると、従来のモデルマージにはbase modelが同一でないとうまくいかなかったり(重みの線型結合によるモデルマージ)、パラメータが増減したり(複数LLMのLayerを重みは弄らず再配置する)。また日本語LLMに対してモデルマージを実施しようとすると、マージ元のLLMが少なかったり、広範囲のモデルを扱うとマージがうまくいかない、といった課題があった。本研究ではこれら課題を解決できる。

AkihikoWatanabe commented 6 months ago

著者による資料(NLPコロキウム): https://speakerdeck.com/iwiwi/17-nlpkorokiumu