Closed zhangxiaowei5346 closed 2 years ago
A1:评估的时候就是把句子输入BERT,不做任何数据增强,取模型的最后两层表示做average pooling,这样得到的句子表示; A2:论文中报告的结果,应该采用的是【一个原始句子,一个增强后的句子】,这个是我们实验早期时的统一设置;然后两种数据增强的实验(即论文中5.2的分析实验)都是后面统一补的。模型评估的时候就是统一不做数据增强(可以看作就是一个普通的BERT,取最后两层做average pooling得到句子表示,数据增强只在训练时用到)。
Q1:请问在无监督学习时,利用两种数据增强方法产生了句子的两个表示,但是之后对模型评估的时候,论文中说通过平均最后两层的token来获得句子的表示,请问这个句子是指哪一个?是原始的句子送入transformer得到的表示还是增强后的句子送入得到的? Q2:在监督学习的任务中,加入了下游任务的损失,此时如果使用joint方式训练,figure2中的数据增强还是使用两种增强吗?还是一个是原始句子 一个是增强后的句子,同样的,在模型评估时用的是哪个句子的表示?谢谢!