想问一下作者，关于纠正网络中候选字集部分是从哪里加载的？

gitabtion / BertBasedCorrectionModels

PyTorch impelementations of BERT-based Spelling Error Correction Models. 基于BERT的文本纠错模型，使用PyTorch实现。

Apache License 2.0

265 stars 43 forks source link

Closed xubinxin123 closed 3 years ago

xubinxin123 commented 3 years ago

之前用其他的纠正模型，是有看到加载拼音、形似字字典，纠错的过程中是替换字典中的后选择，然后通过模型去计算分数。但是在我们这个softmasked bert里，从e‘输入到纠正网络后，直接给出的就是纠正好的文字，请问这些文字是来自哪里？来自vocab文件吗？

gitabtion commented 3 years ago

开源的BERT权重给出了字典vocab.txt，本仓库所涉及的相关模型均是以BERT为基础构建的纠错模型，所以沿用了该字典，当然，您可以更改纠错网络的分类模型，使其基于您自定义的字典做分类，但目前没有实现该功能的计划。