yuboona / Chinese-Punctuation-Restoration-with-Bert-CNN-RNN

A Bert-CNN-LSTM model for punctuation restoration
GNU General Public License v3.0
55 stars 8 forks source link

效果太好的问题 #4

Open xunhanliu opened 2 years ago

xunhanliu commented 2 years ago

根据代码生成的model, 对验证集zh_iwslt/valid 进行标点恢复。结果如下:

问别人问题时当,我说到这《涌现现象》本书当说到涌现现象当说到群,体,智慧让人,们听懂的最,好方式就,是用,城市作为,比喻询问他们谁造就了,这些,城市中街区谁让So,ho有这,样的个性让拉丁区,有那样的特点固然其中,有一些高层的战略决,定但答案却是每个人和没有人每,人都,对它们都有一,点贡献却没有人真正是这个街区的终极,塑造者同样的如果问到在911的悲剧之,后是谁,还让我所,居住的社,区和街道充满,了活力对就是,整个,城,市本身整个系统使得,它运转每个人都有一,点点贡献我们把注意力,转移到互联,网上现在可以看到越来越多,有趣的事,情但当《,涌现,现,象》出版之,前后除了,某,些实验性的东西之外这些有趣的事情和现象大多还不具备普遍性所以这是一个令人乐观的年代我只想讲其中的几件事我相信在网络上开始出现了一种新的互动模式旧的模式是这样的这不是未,来英伦之王,虽然看起来像这只是一男,的我在GeoCit,ies的,主页上找到的在下方你会看到他对足球和耶稣,感兴趣以及加思,·布鲁克,斯Clint

xunhanliu commented 2 years ago

效果远远差于: https://github.com/AlvinIsonomia/LSTM-for-Chinese-Punctuation-Restoration

可以这么理解吗?

yuboona commented 2 years ago

@xunhanliu 不好意思,很久没有维护了。不过你遇到的这个现象是一种过拟合,你可以认为是模型倾向于所有地方都添加标点,以达到对预测召回率的更强覆盖。

  1. 一方面你可以试着增大一下训练的数据量,我在repo中放的训练数据量很少,标点恢复任务本身和bert原始的任务还是有区别的,数据量大一些,模型就没那么容易过拟合了,数据的准备可以参照我的数据的格式。
  2. 另一方面,你可以改写一下我的代码中的损失函数,当时没有考虑小数据情况下的过拟合问题,你可以增加一些惩罚项,让模型在准确率上覆盖的更好一些。
xunhanliu commented 2 years ago

多谢解答~~