llm-jp / experiments

Issue-Only Pretrain Task Management Repository
0 stars 0 forks source link

[事前学習] - 高度化WG12 Attention Checkpoint Tokenの検証 #78

Open gojiteji opened 1 week ago

gojiteji commented 1 week ago

Overview

WG12で研究している、LLMの解釈性と高速化に関する研究 Attentionの集中箇所(Attention Checkpoint Tokenを)を強制的に作り、事前学習を行う。

Details

Attentionを可視化した際、部分部分にAttentionをまとめれそうな箇所が存在する。本実験では、Attentionをまとめるトークン(Attention Checkpoint Token)を外部から、一定間隔に意図的に設置することで、1. 情報のまとめる箇所を作り、atentionの解釈性を向上させる。2. inference時にまとめた部分だけ残すことで効率化を目指す。

Resources

本ISSUEは事前学習に関するものですが、1.8Bモデルを20k steps程度の学習で、最初の結果が確認できると考えています