shibing624 / pycorrector

pycorrector is a toolkit for text error correction. 文本纠错,实现了Kenlm,T5,MacBERT,ChatGLM3,Qwen2.5等模型应用在纠错场景,开箱即用。
https://www.mulanai.com/product/corrector/
Apache License 2.0
5.61k stars 1.1k forks source link

训练MacBert4Csc时报错 #510

Closed s19293949 closed 2 months ago

s19293949 commented 2 months ago

数据是根据样例生成的,报错信息如下: image 是由于这段代码造成吗: image

s19293949 commented 2 months ago

训练代码中添加 max_length似乎没有作用

bigdogaaa commented 2 months ago

训练代码中添加 max_length似乎没有作用

使用自己的语料时,如果存在长度超过512的现象,需要给tokenizer设置参数truncation=True

s19293949 commented 2 months ago

训练代码中添加 max_length似乎没有作用

使用自己的语料时,如果存在长度超过512的现象,需要给tokenizer设置参数truncation=True

是的,已经解决了