Closed PShiYou closed 1 year ago
你说的是不是
'发布了头条文章:《【XT】每日开工链新事儿 06.30 星期二》 [http://t.cn/A6LsKirA#区块链[超话]#](http://t.cn/A6LsKirA#%E5%8C%BA%E5%9D%97%E9%93%BE[%E8%B6%85%E8%AF%9D]#) #数字货币[超话]# #买价值币,只选XT# #比特币[超话]# #XT每日开工链新事儿? 06.30# #腾讯回应起诉老干妈#'
清洗完变
'发布了头条文章:《【XT】每日开工链新事儿06.30星期二》区块链'
有个tag没去掉?我猜测是作者少写一个map或者控制清洗顺序的函数,还没来得及看他源码 可以通过函数定义多次清洗顺序来搞定(比如第一次只清洗tags,第二次只清洗网址之类的) 具体的我得抽时间做一下实验
更新2023年8月29日 清洗是有顺序,我通过反复调用作者的函数,第一次专门清洗#后的内容,第二次专门html网址,解决了上述问题
你说的是不是
'发布了头条文章:《【XT】每日开工链新事儿 06.30 星期二》 [http://t.cn/A6LsKirA#区块链[超话]#](http://t.cn/A6LsKirA#%E5%8C%BA%E5%9D%97%E9%93%BE[%E8%B6%85%E8%AF%9D]#) #数字货币[超话]# #买价值币,只选XT# #比特币[超话]# #XT每日开工链新事儿? 06.30# #腾讯回应起诉老干妈#'
清洗完变
'发布了头条文章:《【XT】每日开工链新事儿06.30星期二》区块链'
有个tag没去掉?我猜测是作者少写一个map或者控制清洗顺序的函数,还没来得及看他源码 可以通过函数定义多次清洗顺序来搞定(比如第一次只清洗tags,第二次只清洗网址之类的) 具体的我得抽时间做一下实验
如果主要是这一类的问题,刚刚修复了一下。更新本库以后,现在得到的结果应该会是
发布了头条文章:《【XT】每日开工链新事儿 06.30 星期二》
主要是话题中间有一个空格,还有这里实际上有一个markdown的超链接格式,现在也会额外的去掉,提取出其中的文本,例如:
# markdown超链接提取文本
text1 = "欢迎使用[HarvestText : A Toolkit for Text Mining and Preprocessing](https://github.com/blmoistawinde/HarvestText)这个库"
print("markdown超链接提取文本")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, t2s=True))
markdown超链接提取文本
原: 欢迎使用[HarvestText : A Toolkit for Text Mining and Preprocessing](https://github.com/blmoistawinde/HarvestText)这个库
清洗后: 欢迎使用HarvestText : A Toolkit for Text Mining and Preprocessing这个库
列如微博文本中有#号未清洗,微博也新增了很多表情。希望大佬将一功能更新