HillZhang1999 / MuCGEC

MuCGEC中文纠错数据集及文本纠错SOTA模型开源;Code & Data for our NAACL 2022 Paper "MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction"
https://aclanthology.org/2022.naacl-main.227/
Apache License 2.0
509 stars 64 forks source link

seq2seq的predict预测长度限制问题 #45

Open chengturbo opened 1 year ago

chengturbo commented 1 year ago

seq2seq的predict.py tokenizer的时候已经设置了max_len 和padding,为什么下面还需要再进一步的判断是否超过100。是否有特殊情况? image

HillZhang1999 commented 1 year ago

这个100是超过100长度的句子,就不修改了

zdm0301 commented 1 year ago

你好,为什么我执行完predict.py之后,生成的句子是分字存在的,且句子不完整,已经从某个地方进行截断了??? 所以这个predict.py 到底是干啥的呢?