HillZhang1999 / SynGEC

Code & data for our EMNLP2022 paper "SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser"
https://arxiv.org/abs/2210.12484
MIT License
79 stars 14 forks source link

关于max input length的问题 #19

Closed jiahaozhenbang closed 1 year ago

jiahaozhenbang commented 1 year ago

你好,感谢您开源了这么优秀的工作!

我想向您请教一个问题:

在论文中的训练细节里,我发现您提到max input length这个参数(=64 English). 我想请问一下这个参数在哪里有体现呢,在训练脚本里面好像没有设置,是在数据预处理的时候就把超出长度的训练样本过滤掉了吗

HillZhang1999 commented 1 year ago

https://github.com/HillZhang1999/SynGEC/blob/main/bash/english_exp/train_syngec_transformer.sh#L35 这里的max-source-position和max-target-position就是源端/目标端最大输入长度

jiahaozhenbang commented 1 year ago

感谢您的回复!

我看的是用预训练模型的训练脚本 https://github.com/HillZhang1999/SynGEC/blob/main/bash/english_exp/train_syngec_bart.sh

这里好像没添加这个训练参数

HillZhang1999 commented 1 year ago

你好,在这里指定了:https://github.com/HillZhang1999/SynGEC/blob/main/bash/english_exp/train_syngec_bart.sh#L198 这几个参数在限制句子长度这个层面都是一个意思

jiahaozhenbang commented 1 year ago

再次感谢您的回复!

所以在使用预训练模型的训练脚本 https://github.com/HillZhang1999/SynGEC/blob/main/bash/english_exp/train_syngec_bart.sh 中, 前面训练bart时没有使用max-sentence-length,即没有限制句子长度,后面训练SynGEC才对句子长度做了约束,对吗

HillZhang1999 commented 1 year ago

嗯嗯,你理解得是对的