FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
7.04k stars 514 forks source link

微调时添加“为这个句子生成表示以用于检索相关文章:”的问题 #264

Open jjs1129 opened 10 months ago

jjs1129 commented 10 months ago

作者您好!对于bge-large-zh-v1.5,在微调后发现对于PMI与其翻译后中文相似度差的问题,这个问题再检索时被进一步放大,想请问对于用在微调的数据{query:str,pos:[List],neg:[List]},是否需要在微调时添加“为这个句子生成表示以用于检索相关文章:”,如果需要添加,是query pos neg都添加吗,还是只需要添加query,期待您的解答

staoxiao commented 10 months ago

翻译数据建议不添加这个指令,将query_instruction_for_retrieval设置为空就好

jjs1129 commented 10 months ago

不好意思,可能我的描述有一些问题,我的意思是训练数据例子像{"query":"近期PMI结果如何","pos":["近期PMI为xxxx",“近期采购经理指数为xxx”],"neg":[xxxxxxx,xxxxxx]} 这样的情况是否需要添加“为这个句子生成表示以用于检索相关文章:”