Vincent131499 / TextSim_cn_finetune

微调预训练语言模型(BERT、Roberta、XLBert等),用于计算两个文本之间的相似度(通过句子对分类任务转换),适用于中文文本
89 stars 20 forks source link

请问训练集中数据比较少的时候,能否以这种方式增加数量 #5

Closed wongwubin closed 3 years ago

wongwubin commented 3 years ago

比如训练集中有A\B\C\D句子,相互之间都是相似关系,那么训练语料能否按照 A|B A|C A|D B|C B|D C|D 这样组合来扩展训练语料,同时又不会影响训练效果呢?

另外,测试集中全是相似的语料,不放入反例(不相似)的语料,这样是否也可以呢

谢谢

Vincent131499 commented 3 years ago

你好,对于你说的相似样本集合,可以采用A|B、A|C之类的排列组合,也可以采用自反增广(A|B -> B|A)类似手段。 但若不放入负样本(反例语料),模型只能拟合正样本对的特征,但要是想达到文本对二分类的目的,需要增加一些负采样操作来让模型同时拟合正、负样本对的特征才可。

wongwubin commented 3 years ago

明白了,感谢回答