FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
6.6k stars 471 forks source link

C-MTP(labeled)数据咨询 #275

Open coffeeLXY opened 9 months ago

coffeeLXY commented 9 months ago
image

请问在C-MTP(labeled)的838K数据中,T2-Ranking、mMARCO-zh、DuReader、NLI-zh这四个数据集分别占了多少呢?

coffeeLXY commented 9 months ago

作者您好,感谢您分享这么好的工作! 我在复现bge-base-zh-v1.5的效果时遇到一些困难,想请教一下:

  1. 请问您后续有开源C-MTP(labeled)这部分数据的计划吗?
  2. 如果方便的话,能否分享一下这部分的数据配比,数据清洗、处理思路,以及训练参数设置? 期待您的回复 @staoxiao
staoxiao commented 9 months ago

谢谢!同时抱歉,论文中有些勘误,我们后期会修改。 我确认了一下,最后的数据包括t2ranking, dulreader, mmarco, cmedqav2, mulit-cpr, nli-zh, ocmnli, cmnli全量的训练数据,通过text2vec进行了简单的过滤,用bge对t2ranking, dulreader, mmarco挖掘了难负样本,nli的数据使用label=0的为负样本,训练时train_group_size=2, 训了5个epoch。

coffeeLXY commented 9 months ago

感谢您的慷慨解答!

wangzhao88 commented 4 months ago

''' 谢谢!同时抱歉,论文中有些勘误,我们后期会修改。 我确认了一下,最后的数据包括t2ranking, dulreader, mmarco, cmedqav2, mulit-cpr, nli-zh, ocmnli, cmnli全量的训练数据,通过text2vec进行了简单的过滤,用bge对t2ranking, dulreader, mmarco挖掘了难负样本,nli的数据使用label=0的为负样本,训练时train_group_size=2, 训了5个epoch。 '''

您好,我正在复现bge的训练过程,这一部分有些细节想请教一下。C-MTP-labeled使用text2vec过滤的时候,是使用GanymedeNil/text2vec-large-chinese这个模型并且阈值设置为0.43,过滤之后再使用剩下样本中label=0的样本作为特定sentence1的负样本,不知道我理解的是否正确,谢谢。