Open AkihikoWatanabe opened 1 year ago
・15.5Bパラメータ ・80種類以上のプログラミング言語で訓練 ・Multi Query Attentionを利用 ・context window size 8192 ・Fill in the middle objectiveを利用
Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle(関数の中身)を出力させる、といった使い方になる模様。
StarCoder: https://huggingface.co/bigcode/starcoder
StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。 既存モデルよりも高性能と主張
https://huggingface.co/bigcode/starcoderbase