FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
7.75k stars 563 forks source link

fine-tuning第一阶段正负样本选取问题 #234

Open erichuang24 opened 1 year ago

erichuang24 commented 1 year ago

您好,请问下fine-tuning第一阶段的unlabel的数据集,正样本是自己,负样本是随机在batch里面选取的吗?看到readme中还说了用text2vec进行简单负样本的过滤,好像这一阶段在代码里面没有体现,具体的论文中好像也没看到。

staoxiao commented 1 year ago

正样本是从原始数据中构造的,比如query是title, 正样本是正文,负样本使用了batch里的所有其他样本。使用text2vec做了简单的阈值过滤,具体参考:https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/README.md#21-unsupervised-pairs

seanzhang-zhichen commented 1 year ago

正样本是从原始数据中构造的,比如query是title, 正样本是正文,负样本使用了batch里的所有其他样本。使用text2vec做了简单的阈值过滤,具体参考:https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/README.md#21-unsupervised-pairs

生成的unsupervised pairs是三元组格式的吗?

staoxiao commented 1 year ago

是的

seanzhang-zhichen commented 1 year ago

意思是2.1阶段生成的是低质量的三元组,2.2阶段生成的是高质量的三元组?

staoxiao commented 1 year ago

是的

seanzhang-zhichen commented 1 year ago

是的

谢谢大佬解答