shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,LLaMA等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.51k stars 1.09k forks source link

训练自有数据集 #365

Closed ASLYY closed 9 months ago

ASLYY commented 1 year ago

不太清楚怎么进行自有数据集的训练 如果使用自有数据集是替换train_macbert4csc.yml中的dataset的train.json,test.json和dev.json文件部分 然后运行train.py就可训练模型了吗 train,test,dev的json是指定了某句话里面的错误信息,那如果想要判断一个json文件中从未出现过的句子,还能实现纠错吗? 期待得到您的回复,谢谢!

shibing624 commented 1 year ago

模型有泛化性

ASLYY commented 1 year ago

谢谢您的回答! 那可以请教一下如何进行标注成模型所需要的数据格式的吗?是否有工具能够使用呢? image

shibing624 commented 1 year ago

我没用工具,excel标注的。你可以看看duocan , 不过建议还是excel标,反正比较简单。

stale[bot] commented 1 year ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.(由于长期不活动,机器人自动关闭此问题,如果需要欢迎提问)