deepseek-ai / DeepSeek-Coder

DeepSeek Coder: Let the Code Write Itself
https://coder.deepseek.com/
MIT License
5.99k stars 431 forks source link

疑惑:为什么 base 模型的 tokenizer 词表中也有类似 <|Assistant|> 这样多用于 chat 模型的 special tokens? #165

Open yucc-leon opened 3 weeks ago

yucc-leon commented 3 weeks ago

按照论文所说,预训练阶段没有加入 SFT 数据,那这部分 token 是否有未被充分训练的风险呢?