taishan1994 / Gector_chinese

基于seq2edit (Gector) 的中文文本纠错。
26 stars 6 forks source link

在dataset.py中为什么要忽略长度小于3的数据的错误? #3

Open EvanJaye opened 10 months ago

EvanJaye commented 10 months ago

您好,

在dataset.py的 DatasetCTC 的成员方法 parse_item 中有如下代码: if src and len(src) < 3: trg = src

我的理解是,当原始数据长度小于3的时候就当做是完全正确的数据进行处理,请问为什么这样操作? 感谢您的回复。

taishan1994 commented 6 months ago

当时看了,忘了回复了。。。短字词的语义太少了,可能有多种纠正方式。