Closed xubinxin123 closed 3 years ago
之前用其他的纠正模型,是有看到加载拼音 、形似字字典,纠错的过程中是替换字典中的后选择,然后通过模型去计算分数。 但是在我们这个softmasked bert里,从e‘输入到纠正网络后,直接给出的就是纠正好的文字,请问这些文字是来自哪里?来自vocab文件吗?
开源的BERT权重给出了字典vocab.txt,本仓库所涉及的相关模型均是以BERT为基础构建的纠错模型,所以沿用了该字典,当然,您可以更改纠错网络的分类模型,使其基于您自定义的字典做分类,但目前没有实现该功能的计划。
之前用其他的纠正模型,是有看到加载拼音 、形似字字典,纠错的过程中是替换字典中的后选择,然后通过模型去计算分数。 但是在我们这个softmasked bert里,从e‘输入到纠正网络后,直接给出的就是纠正好的文字,请问这些文字是来自哪里?来自vocab文件吗?