blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.42k stars 329 forks source link

clean_txt卡死 #36

Closed kevin2018pg closed 3 years ago

kevin2018pg commented 3 years ago

我已经仔细查看过本库的README和之前的Issues,没有发现解决方案。

问题描述 清洗文本卡死 "某某车评栏目称特斯拉自动驾驶技术完败于小鹏 p7 和蔚来,三者对比如何?小鹏p7以及蔚来的感受如何??-?回答作者:Xiiiiiiii Yoooo?https://zhuanlan.zhihu.com/p/349020455(想看更多?下载?@知乎?App:http://t.cn/RxkY6mK) ??"

操作系统:win10

python版本:py3.7

HarvestText版本:0.8.1.1

blmoistawinde commented 3 years ago

用默认参数不能复现这个问题,是否这段文本与实际用的有差别?还是使用了其他的参数?请补充更多细节帮助我判断问题: image

In [24]: text2 = "某某车评栏目称特斯拉自动驾驶技术完败于小鹏 p7 和蔚来,三者对比如何?小鹏p7以及蔚来的感受如何??-?回答作者:X 
    ...: iiiiiiii Yoooo?https://zhuanlan.zhihu.com/p/349020455(想看更多?下载?@知乎?App:http://t.cn/RxkY6mK) ??"

In [25]: ht.clean_text(text2)
Out[25]: '某某车评栏目称特斯拉自动驾驶技术完败于小鹏 p7 和蔚来,三者对比如何?小鹏p7以及蔚来的感受如何??-?回答作者:Xiiiiiiii 
Yoooo? ??'
blmoistawinde commented 3 years ago

另外为了修复 https://github.com/blmoistawinde/HarvestText/issues/33 换了一套正则表达式,你也可以现在更新到最新的0.8.1.3再试试效果?