HillZhang1999 / SynGEC

Code & data for our EMNLP2022 paper "SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser"
https://arxiv.org/abs/2210.12484
MIT License
79 stars 14 forks source link

关于词表大小 #26

Closed wyxstriker closed 1 year ago

wyxstriker commented 1 year ago

你好,我在尝试将fairseq权重转换为hf权重时出现了一些问题,想问一下训练阶段权重转换的时候为什么要对hf embeddings进行拓展,我看词表大小是21128,最后权重是21132,是引入了一些语法相关特殊token么,只复现baseline是否不需要考虑?

HillZhang1999 commented 1 year ago

有几个特殊token,fairseq不支持load,重新训练了。https://github.com/HillZhang1999/NaSGEC 这个仓库里面有转换好的中文版本。

wyxstriker commented 1 year ago

好的,感谢:)

wyxstriker commented 1 year ago

你好,还想请教一些关于fairseq框架的问题。 我使用fnlp bart v2.0在fairseq上重新训练了一版,已经可以复现论文的结论了,P相较于hf版提升了很多; 想问下作者在mucgec基线之后还有尝试过hf框架下的一些实验么,是否能达到fairseq框架下的效果?我不太清楚是fairseq内置训练trick更多还是我hf复现存在问题导致的。

HillZhang1999 commented 1 year ago

主体实验基本都follow fairseq进行,没有过多尝试huggingface。我的经验是huggingface的训练速度和效果都会略差一些。

wyxstriker commented 1 year ago

了解了,我测了下NaSGEC转完权重那版效果和我之前训的差不多,P会低一些,还是fairseq好用一些,感谢解答