gitabtion / SoftMaskedBert-PyTorch

🙈 An unofficial implementation of SoftMaskedBert based on huggingface/transformers.
MIT License
93 stars 17 forks source link

关于数据集缺字多字问题 #22

Closed HaliComing closed 2 years ago

HaliComing commented 2 years ago

soft masked bert 是不是只能处理错误文本和正确文本长度相同的数据集?对于错误文本缺字或者多字的问题,我应该如何处理或者说soft masked bert 不支持?

HaliComing commented 2 years ago

我没有收到作者的任何回复,我将关闭这个issue。 针对这个问题,我咨询了对这个了解的朋友,他的回答是这样的,仅供有这个问题的大家参考:

目前soft masked 模型做纠错都是错别字纠正,对语序,重复,遗漏等问题都表现不佳
要解决后边这些问题的话一般都是用seq2seq系列模型,但目前来看,效果并不好
目前工业界还是规则为主,模型为辅

找到一篇文字,看到它的一个实现方法,是将文本纠错任务看成一个机器翻译任务,把错误文本经过模型翻译成一个正确的文本,可能会解决错误文本缺字或者多字的纠错问题。当然这种想法我现在还没有进行实验,未来某天我会实验它。这是那篇文章的地址https://blog.csdn.net/HUSTHY/article/details/113878207

gitabtion commented 2 years ago

我没有收到作者的任何回复,我将关闭这个issue。 针对这个问题,我咨询了对这个了解的朋友,他的回答是这样的,仅供有这个问题的大家参考:

目前soft masked 模型做纠错都是错别字纠正,对语序,重复,遗漏等问题都表现不佳
要解决后边这些问题的话一般都是用seq2seq系列模型,但目前来看,效果并不好
目前工业界还是规则为主,模型为辅

找到一篇文字,看到它的一个实现方法,是将文本纠错任务看成一个机器翻译任务,把错误文本经过模型翻译成一个正确的文本,可能会解决错误文本缺字或者多字的纠错问题。当然这种想法我现在还没有进行实验,未来某天我会实验它。这是那篇文章的地址https://blog.csdn.net/HUSTHY/article/details/113878207

抱歉,github不常看,所以回复得不及时。不过你这个朋友就是我本人。

HaliComing commented 2 years ago

哇,世界太奇妙了,原来是你!感谢之前的解惑。