AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
17 stars 0 forks source link

Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23 #1309

Open AkihikoWatanabe opened 4 months ago

AkihikoWatanabe commented 4 months ago

URL

AkihikoWatanabe commented 4 months ago

1237 #1279 などのモデルも参照のこと

モデルのスケールが大きくなると、inferenceのlatencyが遅くなり、計算コストが大きくなりすぎて実用的でないので、小さいパラメータで素早いinference実現したいよね、というモチベーション。 そのために、SlidingWindowAttentionとGroupQueryAttention #1271 を活用している。 image

より小さいパラメータ数でLlama2を様々なタスクでoutperformし image

Instruction Tuningを実施したモデルは、13BモデルよりもChatbotArenaで高いElo Rateを獲得した。 image

AkihikoWatanabe commented 4 months ago

コンテキスト長は8192