deepseek-ai / DeepSeek-Coder

DeepSeek Coder: Let the Code Write Itself
https://coder.deepseek.com/
MIT License
6.01k stars 433 forks source link

请问一下最新发布的7b-v1.5模型不支持中间补全吗 #110

Closed Reve1ations closed 4 months ago

Reve1ations commented 5 months ago

最新发布的7b-v1.5模型增量训练未采用fim模式,词表中也不包含中间补全的标识符<| fim_begin|>、<| fim_hole|>、<| fim_end|>, 请问下该版模型是否还可以使用中间补全模式进行推理

guoday commented 5 months ago

是的,该模型主要是为了弥补chat模型自然语言能力的不足

Reve1ations commented 5 months ago

了解了 多谢

valerybugakov commented 4 months ago

Hey folks! To double-check, does that mean that both v1.5 models, instruct and base, no longer support FIM?

guoday commented 4 months ago

Hey folks! To double-check, does that mean that both v1.5 models, instruct and base, no longer support FIM?

yes.

zheng5yu9 commented 4 months ago

chat能力与 FIM能力为何不能同时兼容?

zheng5yu9 commented 4 months ago

哪个版本是支持FIM的? 词表目前是不支持<| fim_begin|>、<| fim_hole|>、<| fimend|> 这几个 FIM标识符的,默认会分成 [<', 'f', 'im', '', 'b', 'gin', '>', 'a', '<', 'f', 'im', '', 'hole', '>', 'a', '<', 'f', 'im', '', 'end', '>'] , 是需要 把这几个 add_special_token么,还是就是默认的llmatokenzierfast分词方式

guoday commented 4 months ago

chat能力与 FIM能力为何不能同时兼容?

可以兼容,但v1.5没做FIM预训练。只有v1支持

zheng5yu9 commented 4 months ago

chat能力与 FIM能力为何不能同时兼容?

可以兼容,但v1.5没做FIM预训练。只有v1支持

? 词表目前是不支持<| fim_begin|>、<| fim_hole|>、<| fimend|> 这几个 FIM标识符的,默认会分成 [<', 'f', 'im', '', 'b', 'gin', '>', 'a', '<', 'f', 'im', '', 'hole', '>', 'a', '<', 'f', 'im', '', 'end', '>'] , 是需要 把这几个 add_special_token么,还是就是默认的llmatokenzierfast分词方式

这个问题帮解答下?

guoday commented 4 months ago

chat能力与 FIM能力为何不能同时兼容?

可以兼容,但v1.5没做FIM预训练。只有v1支持

? 词表目前是不支持<| fim_begin|>、<| fim_hole|>、<| fimend|> 这几个 FIM标识符的,默认会分成 [<', 'f', 'im', '', 'b', 'gin', '>', 'a', '<', 'f', 'im', '', 'hole', '>', 'a', '<', 'f', 'im', '', 'end', '>'] , 是需要 把这几个 add_special_token么,还是就是默认的llmatokenzierfast分词方式

这个问题帮解答下?

v1.5的词表没有这三个词,因为不支持。v1的词表有