Closed erichuazhou closed 4 years ago
@erichuazhou A1:默认fine tune整个bert模型,但是你可以设置是否freeze bert的某些层(或者全部层),freeze config,或者在哪些epoch freeze A2:目前支持按照 尾字、首字、首尾相加等方式将token序列表示转为word表示 word select config,这几种性能差别很小,后续考虑加一个char cnn,但是预计收益不大 A3:一方面是很多基于bert做parser的项目或者论文也在后面加了transformer,另一方面实验结果也支持。猜测是因为token到word的表示转换很“粗暴”,后续的transformer可以进一步修正得到更合适的词语表示。之所以不选择LSTM是因为太慢了
谢谢答疑。感谢。 @LiangsLi
1、bert作为pre-trained的embedding,参与整个模型的fine-tune吗? 2、从bert的token embedding,到 biaffine之前的word embedding,是怎么转换的?怎么从token转到wod? 3、为什么在bert之后还要加transformer?bert里面已经是L个transformer encoder层了。 谢谢。@LiangsLi