请问训练集中数据比较少的时候，能否以这种方式增加数量

Vincent131499 / TextSim_cn_finetune

微调预训练语言模型(BERT、Roberta、XLBert等),用于计算两个文本之间的相似度（通过句子对分类任务转换）,适用于中文文本

89 stars 20 forks source link

Closed wongwubin closed 3 years ago

wongwubin commented 3 years ago

比如训练集中有A\B\C\D句子，相互之间都是相似关系，那么训练语料能否按照 A|B A|C A|D B|C B|D C|D 这样组合来扩展训练语料，同时又不会影响训练效果呢？

另外，测试集中全是相似的语料，不放入反例(不相似)的语料，这样是否也可以呢

谢谢

Vincent131499 commented 3 years ago

你好，对于你说的相似样本集合，可以采用A|B、A|C之类的排列组合，也可以采用自反增广（A|B -> B|A）类似手段。但若不放入负样本（反例语料），模型只能拟合正样本对的特征，但要是想达到文本对二分类的目的，需要增加一些负采样操作来让模型同时拟合正、负样本对的特征才可。

wongwubin commented 3 years ago

明白了，感谢回答