blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.43k stars 330 forks source link

清洗模块改进 #25

Closed TaoYuanJW closed 4 years ago

TaoYuanJW commented 4 years ago

通过爬虫抓取微博热门语料对HT的清洗模块进行了小测试,故根据返回结果提出反馈:

① ①:每条语料都有”\u200b“

② ②:中间的博文内容“辛苦了”被洗掉

③ ③:存在特殊表情符号无法处理

④ ④:“[]"后的全部内容被洗掉

⑤ ⑤:中括号内的“[]"包裹的内容被洗掉

⑥ ⑥:除了”\u200b“,HT大多数情况下的表现已经很好