Open erichuang24 opened 1 year ago
正样本是从原始数据中构造的,比如query是title, 正样本是正文,负样本使用了batch里的所有其他样本。使用text2vec做了简单的阈值过滤,具体参考:https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/README.md#21-unsupervised-pairs
正样本是从原始数据中构造的,比如query是title, 正样本是正文,负样本使用了batch里的所有其他样本。使用text2vec做了简单的阈值过滤,具体参考:https://github.com/FlagOpen/FlagEmbedding/blob/master/FlagEmbedding/baai_general_embedding/README.md#21-unsupervised-pairs
生成的unsupervised pairs是三元组格式的吗?
是的
意思是2.1阶段生成的是低质量的三元组,2.2阶段生成的是高质量的三元组?
是的
是的
谢谢大佬解答
您好,请问下fine-tuning第一阶段的unlabel的数据集,正样本是自己,负样本是随机在batch里面选取的吗?看到readme中还说了用text2vec进行简单负样本的过滤,好像这一阶段在代码里面没有体现,具体的论文中好像也没看到。