seq2seq的predict预测长度限制问题

HillZhang1999 / MuCGEC

MuCGEC中文纠错数据集及文本纠错SOTA模型开源；Code & Data for our NAACL 2022 Paper "MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese Grammatical Error Correction"

https://aclanthology.org/2022.naacl-main.227/

Apache License 2.0

509 stars 64 forks source link

seq2seq的predict预测长度限制问题 #45

Open chengturbo opened 1 year ago

chengturbo commented 1 year ago

seq2seq的predict.py tokenizer的时候已经设置了max_len 和padding，为什么下面还需要再进一步的判断是否超过100。是否有特殊情况？

HillZhang1999 commented 1 year ago

这个100是超过100长度的句子，就不修改了

zdm0301 commented 1 year ago

你好，为什么我执行完predict.py之后，生成的句子是分字存在的，且句子不完整，已经从某个地方进行截断了？？？所以这个predict.py 到底是干啥的呢？