terrifyzhao / bert-utils

一行代码使用BERT生成句向量,BERT做文本分类、文本相似度计算
Apache License 2.0
1.65k stars 425 forks source link

关于predict准确率的问题 #35

Open Zhangpeixiang opened 5 years ago

Zhangpeixiang commented 5 years ago

我利用您开源的数据训练后,loss效果还是不错的,验证集也有接近80%的准确率,但是我实际进行测试的时候,发现两个语义相似度高的句子并不能很好的被识别出来,往往仅有1%的相似度,反观那些可以识别的句子,多半是因为其本身在字符级的相似度较高,模型容易识别这类相似的句子对,并没有在bert上看到较为明显的强大之处。是否是因为这个数据集的原因,以及相似度本身处理起来并不如分类任务效果好?是否BERT在分类任务中会有更好的表现?

terrifyzhao commented 5 years ago

@Zhangpeixiang bert相比于其他模型来说有质的飞跃,nlp目前还处在一个发展的阶段,模型本生并不一定就能达到完美的效果,在文本匹配这一块来说,bert论文的fine turning任务中没有提到过文本匹配的任务,xlnet有提到,可以期待下xlnet的效果。

Zhangpeixiang commented 5 years ago

@terrifyzhao 嗯嗯,最近也在关注xlnet,准备好好研读一下加入回归后的模型效果