fine-tuning第一阶段正负样本选取问题

FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs

MIT License

7.75k stars 563 forks source link

fine-tuning第一阶段正负样本选取问题 #234

Open erichuang24 opened 1 year ago

erichuang24 commented 1 year ago

您好，请问下fine-tuning第一阶段的unlabel的数据集，正样本是自己，负样本是随机在batch里面选取的吗？看到readme中还说了用text2vec进行简单负样本的过滤，好像这一阶段在代码里面没有体现，具体的论文中好像也没看到。

staoxiao commented 1 year ago

正样本是从原始数据中构造的，比如query是title，正样本是正文，负样本使用了batch里的所有其他样本。使用text2vec做了简单的阈值过滤，具体参考：https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/README.md#21-unsupervised-pairs

seanzhang-zhichen commented 1 year ago

正样本是从原始数据中构造的，比如query是title，正样本是正文，负样本使用了batch里的所有其他样本。使用text2vec做了简单的阈值过滤，具体参考：https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/README.md#21-unsupervised-pairs

生成的unsupervised pairs是三元组格式的吗？

staoxiao commented 1 year ago

是的

seanzhang-zhichen commented 1 year ago

意思是2.1阶段生成的是低质量的三元组，2.2阶段生成的是高质量的三元组？

staoxiao commented 1 year ago

是的

seanzhang-zhichen commented 1 year ago

是的

谢谢大佬解答