自定义API中包含中文

OpenBMB / ToolBench

[ICLR'24 spotlight] An open platform for training, serving, and evaluating large language model for tool learning.

https://openbmb.github.io/ToolBench/

Apache License 2.0

4.81k stars 409 forks source link

Open HaoRenkk123 opened 1 year ago

HaoRenkk123 commented 1 year ago

自定义API中"query"为中文,retrieval检索模型的数据处理阶段，会将中文编码为unicode(如：'\u***')等形式，请问检索模型当前支持中文吗，还是必须要编码成'\u'呢，训练框架的tokenizer是否对中文友好呢

pooruss commented 1 year ago

你好，当前检索模型暂不支持中文，tokenizer对中文也不友好可能会出现大量UNK标识符，如果要支持中文建议使用bert-base-chinese或者类似的中文模型

mMrBun commented 1 year ago

你好，当前检索模型暂不支持中文，tokenizer对中文也不友好可能会出现大量UNK标识符，如果要支持中文建议使用bert-base-chinese或者类似的中文模型

也就是说想用中文的API只需要替换中文的Retriever模型就好了吗？README中有训练Retriever模型的代码，但是数据集都是英文的，可行吗？

knjwhn969 commented 1 year ago

同问，如果想调用中文的api需要做哪些工作呢？不过还是非常感谢您的工作 @pooruss

pooruss commented 1 year ago

以下是在中文上做参考的步骤：