blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.43k stars 330 forks source link

文本清洗 #48

Closed PShiYou closed 1 year ago

PShiYou commented 1 year ago

列如微博文本中有#号未清洗,微博也新增了很多表情。希望大佬将一功能更新

Myoontyee commented 1 year ago

你说的是不是

'发布了头条文章:《【XT】每日开工链新事儿 06.30 星期二》  [http://t.cn/A6LsKirA#区块链[超话]#](http://t.cn/A6LsKirA#%E5%8C%BA%E5%9D%97%E9%93%BE[%E8%B6%85%E8%AF%9D]#) #数字货币[超话]# #买价值币,只选XT# #比特币[超话]# #XT每日开工链新事儿? 06.30# #腾讯回应起诉老干妈#'

清洗完变

'发布了头条文章:《【XT】每日开工链新事儿06.30星期二》区块链'

有个tag没去掉?我猜测是作者少写一个map或者控制清洗顺序的函数,还没来得及看他源码 可以通过函数定义多次清洗顺序来搞定(比如第一次只清洗tags,第二次只清洗网址之类的) 具体的我得抽时间做一下实验

Myoontyee commented 1 year ago

更新2023年8月29日 清洗是有顺序,我通过反复调用作者的函数,第一次专门清洗#后的内容,第二次专门html网址,解决了上述问题

blmoistawinde commented 1 year ago

你说的是不是

'发布了头条文章:《【XT】每日开工链新事儿 06.30 星期二》  [http://t.cn/A6LsKirA#区块链[超话]#](http://t.cn/A6LsKirA#%E5%8C%BA%E5%9D%97%E9%93%BE[%E8%B6%85%E8%AF%9D]#) #数字货币[超话]# #买价值币,只选XT# #比特币[超话]# #XT每日开工链新事儿? 06.30# #腾讯回应起诉老干妈#'

清洗完变

'发布了头条文章:《【XT】每日开工链新事儿06.30星期二》区块链'

有个tag没去掉?我猜测是作者少写一个map或者控制清洗顺序的函数,还没来得及看他源码 可以通过函数定义多次清洗顺序来搞定(比如第一次只清洗tags,第二次只清洗网址之类的) 具体的我得抽时间做一下实验

如果主要是这一类的问题,刚刚修复了一下。更新本库以后,现在得到的结果应该会是

发布了头条文章:《【XT】每日开工链新事儿 06.30 星期二》

主要是话题中间有一个空格,还有这里实际上有一个markdown的超链接格式,现在也会额外的去掉,提取出其中的文本,例如:

# markdown超链接提取文本
text1 = "欢迎使用[HarvestText : A Toolkit for Text Mining and Preprocessing](https://github.com/blmoistawinde/HarvestText)这个库"
print("markdown超链接提取文本")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, t2s=True))
markdown超链接提取文本
原: 欢迎使用[HarvestText : A Toolkit for Text Mining and Preprocessing](https://github.com/blmoistawinde/HarvestText)这个库
清洗后: 欢迎使用HarvestText : A Toolkit for Text Mining and Preprocessing这个库