425776024 / nlpcda

一键中文数据增强包 ; NLP数据增强、bert数据增强、EDA:pip install nlpcda
Apache License 2.0
1.78k stars 169 forks source link

同音字替换 #37

Closed Riverise closed 7 months ago

Riverise commented 7 months ago

为什么用那么多生僻字替换呢?是怕换成常用字影响语句含义吗?

以“ye”为例: ye 也 叶 页 夜 爷 耶 业 液 野 烨 噎 掖 業 晔 冶 嘢 椰 曳 谒 葉 邺 吔 爺 頁 腋 靥 暍 铘 鵺 埜 枼 鄴 曵 倻 揶 擫 謁 啘 亱 堨 燁 楪 靨 洂 僷 馌 殗 曄 嶪 壄 璍 鍱 亪 漜 擪 饁 曗 嶫 潱 墷 瞱 爗 抴 餣 澲 釾 捙 擛 擨 鎑 瞸 礏 枽 蠮 捓 嚈 鐷 鋣 驜 曅 皣 鄓 鸈 歋 鎁

425776024 commented 7 months ago

可以不启用这个,或者使用自己自定义的词表,这个只是个工具(我也没想到ye能有这么多生僻字,感觉可以后面加个概率,这种字的替换,越靠前的替换概率越大比较合适)。

Riverise commented 7 months ago

ok 感谢回复 期待后续完善