gitabtion / BertBasedCorrectionModels

PyTorch impelementations of BERT-based Spelling Error Correction Models. 基于BERT的文本纠错模型,使用PyTorch实现。
Apache License 2.0
265 stars 43 forks source link

想问一下作者,关于纠正网络中候选字集部分是从哪里加载的? #8

Closed xubinxin123 closed 3 years ago

xubinxin123 commented 3 years ago

之前用其他的纠正模型,是有看到加载拼音 、形似字字典,纠错的过程中是替换字典中的后选择,然后通过模型去计算分数。 但是在我们这个softmasked bert里,从e‘输入到纠正网络后,直接给出的就是纠正好的文字,请问这些文字是来自哪里?来自vocab文件吗?

gitabtion commented 3 years ago

开源的BERT权重给出了字典vocab.txt,本仓库所涉及的相关模型均是以BERT为基础构建的纠错模型,所以沿用了该字典,当然,您可以更改纠错网络的分类模型,使其基于您自定义的字典做分类,但目前没有实现该功能的计划。