OpenBMB / ToolBench

[ICLR'24 spotlight] An open platform for training, serving, and evaluating large language model for tool learning.
https://openbmb.github.io/ToolBench/
Apache License 2.0
4.81k stars 409 forks source link

自定义API中包含中文 #88

Open HaoRenkk123 opened 1 year ago

HaoRenkk123 commented 1 year ago

自定义API中"query"为中文,retrieval检索模型的数据处理阶段,会将中文编码为unicode(如:'\u***')等形式,请问检索模型当前支持中文吗,还是必须要编码成'\u'呢,训练框架的tokenizer是否对中文友好呢

pooruss commented 1 year ago

你好,当前检索模型暂不支持中文,tokenizer对中文也不友好可能会出现大量UNK标识符,如果要支持中文建议使用bert-base-chinese或者类似的中文模型

mMrBun commented 1 year ago

你好,当前检索模型暂不支持中文,tokenizer对中文也不友好可能会出现大量UNK标识符,如果要支持中文建议使用bert-base-chinese或者类似的中文模型

也就是说想用中文的API只需要替换中文的Retriever模型就好了吗?README中有训练Retriever模型的代码,但是数据集都是英文的,可行吗?

knjwhn969 commented 1 year ago

同问,如果想调用中文的api需要做哪些工作呢? 不过还是非常感谢您的工作 @pooruss

pooruss commented 1 year ago

以下是在中文上做参考的步骤:

  1. 需要准备好中文api环境和数据
  2. 将准备好的数据fine-tune一个有中文能力的预训练模型,比如CPM-Bee
  3. 在中文api环境下用fine-tuned的模型做inference