shawroad / NLP_pytorch_project

Embedding, NMT, Text_Classification, Text_Generation, NER etc.
559 stars 119 forks source link

利用bert进行纠错的数据可以提供一个格式示例吗? #32

Open wangguanhua opened 4 years ago

wangguanhua commented 4 years ago

如题,简单提供一两条数据就好。

shawroad commented 4 years ago

如题,简单提供一两条数据就好。

训练数据 就是对bert进行预训练的数据格式。 如果项目中需纠错 不建议用bert直接进行纠错。效果不好。

wangguanhua commented 4 years ago

那就是和pycorrector的思路一样喽,不过那个项目纠错效果还行,估计是数据量的原因?

shawroad commented 4 years ago

那就是和pycorrector的思路一样喽,不过那个项目纠错效果还行,估计是数据量的原因?

bert的预训练的数据格式 将一篇文章分成多行,文章和文章之间用空格隔开。 举例: 文章1的第一句话 文章1的第二句话 .... 文章1的第n句话

文章2的第一句话 文章2的第二句话 .... 文章2的第n句话