Closed Mactarvish closed 3 months ago
这些带下划线的token是什么,而且有的是粗线 有的是细线
这个是正常的,即是前缀空格的意思,tokenzier在设置了解码的Metaspace后,是看不到这个前缀的。详情请查看tokenziers库add_prefix_space和Metaspace参数,
tokenzier
Metaspace
tokenziers
add_prefix_space
请问 tokenizer 训练时,您的内存占多少?
超过32G了,可能需要64G以上。
这些带下划线的token是什么,而且有的是粗线 有的是细线