AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
20 stars 0 forks source link

Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv'24 #1524

Open AkihikoWatanabe opened 2 hours ago

AkihikoWatanabe commented 2 hours ago

URL

AkihikoWatanabe commented 2 hours ago

元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

AkihikoWatanabe commented 2 hours ago

FP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よりも低下したりする(日本語と英語の両方)との報告のようである。現状アブストと付録しか記載がないが、内容はこれから更新されるのだろうか。

image