Open HaoRenkk123 opened 1 year ago
你好,当前检索模型暂不支持中文,tokenizer对中文也不友好可能会出现大量UNK标识符,如果要支持中文建议使用bert-base-chinese或者类似的中文模型
你好,当前检索模型暂不支持中文,tokenizer对中文也不友好可能会出现大量UNK标识符,如果要支持中文建议使用bert-base-chinese或者类似的中文模型
也就是说想用中文的API只需要替换中文的Retriever模型就好了吗?README中有训练Retriever模型的代码,但是数据集都是英文的,可行吗?
同问,如果想调用中文的api需要做哪些工作呢? 不过还是非常感谢您的工作 @pooruss
自定义API中"query"为中文,retrieval检索模型的数据处理阶段,会将中文编码为unicode(如:'\u***')等形式,请问检索模型当前支持中文吗,还是必须要编码成'\u'呢,训练框架的tokenizer是否对中文友好呢