C-MTP（labeled）数据咨询

coffeeLXY commented 9 months ago

请问在C-MTP（labeled）的838K数据中，T2-Ranking、mMARCO-zh、DuReader、NLI-zh这四个数据集分别占了多少呢？

coffeeLXY commented 9 months ago

作者您好，感谢您分享这么好的工作！我在复现bge-base-zh-v1.5的效果时遇到一些困难，想请教一下：

请问您后续有开源C-MTP（labeled）这部分数据的计划吗？
如果方便的话，能否分享一下这部分的数据配比，数据清洗、处理思路，以及训练参数设置？期待您的回复 @staoxiao

staoxiao commented 9 months ago

谢谢！同时抱歉，论文中有些勘误，我们后期会修改。我确认了一下，最后的数据包括t2ranking, dulreader, mmarco, cmedqav2, mulit-cpr, nli-zh, ocmnli, cmnli全量的训练数据，通过text2vec进行了简单的过滤，用bge对t2ranking, dulreader, mmarco挖掘了难负样本，nli的数据使用label=0的为负样本，训练时train_group_size=2, 训了5个epoch。

coffeeLXY commented 9 months ago

感谢您的慷慨解答！

wangzhao88 commented 4 months ago

''' 谢谢！同时抱歉，论文中有些勘误，我们后期会修改。我确认了一下，最后的数据包括t2ranking, dulreader, mmarco, cmedqav2, mulit-cpr, nli-zh, ocmnli, cmnli全量的训练数据，通过text2vec进行了简单的过滤，用bge对t2ranking, dulreader, mmarco挖掘了难负样本，nli的数据使用label=0的为负样本，训练时train_group_size=2, 训了5个epoch。 '''

您好，我正在复现bge的训练过程，这一部分有些细节想请教一下。C-MTP-labeled使用text2vec过滤的时候，是使用GanymedeNil/text2vec-large-chinese这个模型并且阈值设置为0.43，过滤之后再使用剩下样本中label=0的样本作为特定sentence1的负样本，不知道我理解的是否正确，谢谢。

FlagOpen / FlagEmbedding

C-MTP（labeled）数据咨询 #275