Closed EASTERNTIGER closed 1 year ago
训练集中的错误是指啥?放下case
训练集中的错误是指啥?放下case
比如{"id": "-", "original_text": "海上升明月", "wrong_ids": [2], "correct_text": "海上生明月"} {"id": "-", "original_text": "消费者可以在购买肯德即使品时选择", "wrong_ids": [10,11], "correct_text": "消费者可以在购买肯德基食品时选择"} {"id": "-", "original_text": "这份工作收入微博", "wrong_ids": [7], "correct_text": "这份工作收入微薄"} 这种类似的例子,使用macbert训练后都能够纠正,但是seq2seq和t5使用同样的数据训练,就不会输出纠正结果,只会返回空列表
1、自己的训练集是多少? 2、T5是训练5000个steps,trainer以max_steps为准的; 3、这3个case我测试了下,1和3属于比较难的case,case1原文本身没问题,case3的微博是流行词,case2我测试macbert4csc和T5都能捕捉错误,但并不能全部改对。
1、自己的训练集是多少? 2、T5是训练5000个steps,trainer以max_steps为准的; 3、这3个case我测试了下,1和3属于比较难的case,case1原文本身没问题,case3的微博是流行词,case2我测试macbert4csc和T5都能捕捉错误,但并不能全部改对。
您好,1.我自己的训练集大约15000条,但是进行纠错的正样本只有4000条左右,防止误纠的负样本有11000条。 2.我可以去transformers中去修改一下trainer的max_steps以观效果是吗? 3.其实还是我的自定义数据较难,模型不易学习捕捉的问题可以这么理解么。
1、数据集没问题; 2、可以改; 3、是。
如题,我使用开源数据加自己标注的数据训练后得到的模型,仍然无法纠正出自定义训练集中的错误,seq2seq训练了200轮,T5训练了5000轮。请问我需要如何改进呢?