关于词表大小 - Githubissues

HillZhang1999 / SynGEC

Code & data for our EMNLP2022 paper "SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser"

https://arxiv.org/abs/2210.12484

MIT License

79 stars 14 forks source link

关于词表大小 #26

Closed wyxstriker closed 1 year ago

wyxstriker commented 1 year ago

你好，我在尝试将fairseq权重转换为hf权重时出现了一些问题，想问一下训练阶段权重转换的时候为什么要对hf embeddings进行拓展，我看词表大小是21128，最后权重是21132，是引入了一些语法相关特殊token么，只复现baseline是否不需要考虑？

HillZhang1999 commented 1 year ago

有几个特殊token，fairseq不支持load，重新训练了。https://github.com/HillZhang1999/NaSGEC 这个仓库里面有转换好的中文版本。

wyxstriker commented 1 year ago

好的，感谢：）

wyxstriker commented 1 year ago

你好，还想请教一些关于fairseq框架的问题。我使用fnlp bart v2.0在fairseq上重新训练了一版，已经可以复现论文的结论了，P相较于hf版提升了很多；想问下作者在mucgec基线之后还有尝试过hf框架下的一些实验么，是否能达到fairseq框架下的效果？我不太清楚是fairseq内置训练trick更多还是我hf复现存在问题导致的。

HillZhang1999 commented 1 year ago

主体实验基本都follow fairseq进行，没有过多尝试huggingface。我的经验是huggingface的训练速度和效果都会略差一些。

wyxstriker commented 1 year ago

了解了，我测了下NaSGEC转完权重那版效果和我之前训的差不多，P会低一些，还是fairseq好用一些，感谢解答