charent / ChatLM-mini-Chinese

中文对话0.2B小模型(ChatLM-Chinese-0.2B),开源所有数据集来源、数据清洗、tokenizer训练、模型预训练、SFT指令微调、RLHF优化等流程的全部代码。支持下游任务sft微调,给出三元组信息抽取微调示例。
Apache License 2.0
1.22k stars 146 forks source link

tokenizer的字典中有不少token带有下划线,请问这种是什么意思 #53

Closed Mactarvish closed 3 months ago

Mactarvish commented 3 months ago

微信图片_20240711155343

这些带下划线的token是什么,而且有的是粗线 有的是细线

charent commented 3 months ago

这个是正常的,即是前缀空格的意思,tokenzier在设置了解码的Metaspace后,是看不到这个前缀的。详情请查看tokenziersadd_prefix_spaceMetaspace参数,

musexiaoluo commented 2 months ago

请问 tokenizer 训练时,您的内存占多少?

charent commented 1 month ago

请问 tokenizer 训练时,您的内存占多少?

超过32G了,可能需要64G以上。