Seq2seq和T5添加自定义训练集训练后仍然无法纠正错误

shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错，实现了Kenlm，T5，MacBERT，ChatGLM3，Qwen2.5等模型应用在纠错场景，开箱即用。

https://www.mulanai.com/product/corrector/

Apache License 2.0

5.61k stars 1.1k forks source link

Seq2seq和T5添加自定义训练集训练后仍然无法纠正错误 #340

Closed EASTERNTIGER closed 1 year ago

EASTERNTIGER commented 2 years ago

如题，我使用开源数据加自己标注的数据训练后得到的模型，仍然无法纠正出自定义训练集中的错误，seq2seq训练了200轮，T5训练了5000轮。请问我需要如何改进呢？

shibing624 commented 2 years ago

训练集中的错误是指啥？放下case

EASTERNTIGER commented 2 years ago

训练集中的错误是指啥？放下case

比如{"id": "-", "original_text": "海上升明月", "wrong_ids": [2], "correct_text": "海上生明月"} {"id": "-", "original_text": "消费者可以在购买肯德即使品时选择", "wrong_ids": [10,11], "correct_text": "消费者可以在购买肯德基食品时选择"} {"id": "-", "original_text": "这份工作收入微博", "wrong_ids": [7], "correct_text": "这份工作收入微薄"} 这种类似的例子，使用macbert训练后都能够纠正，但是seq2seq和t5使用同样的数据训练，就不会输出纠正结果，只会返回空列表

shibing624 commented 2 years ago

1、自己的训练集是多少？ 2、T5是训练5000个steps，trainer以max_steps为准的； 3、这3个case我测试了下，1和3属于比较难的case，case1原文本身没问题，case3的微博是流行词，case2我测试macbert4csc和T5都能捕捉错误，但并不能全部改对。

EASTERNTIGER commented 1 year ago

1、自己的训练集是多少？ 2、T5是训练5000个steps，trainer以max_steps为准的； 3、这3个case我测试了下，1和3属于比较难的case，case1原文本身没问题，case3的微博是流行词，case2我测试macbert4csc和T5都能捕捉错误，但并不能全部改对。

您好，1.我自己的训练集大约15000条，但是进行纠错的正样本只有4000条左右，防止误纠的负样本有11000条。 2.我可以去transformers中去修改一下trainer的max_steps以观效果是吗？ 3.其实还是我的自定义数据较难，模型不易学习捕捉的问题可以这么理解么。

shibing624 commented 1 year ago

1、数据集没问题； 2、可以改； 3、是。