文本清洗 - Githubissues

PShiYou commented 1 year ago

列如微博文本中有#号未清洗，微博也新增了很多表情。希望大佬将一功能更新

Myoontyee commented 1 year ago

你说的是不是

'发布了头条文章：《【XT】每日开工链新事儿 06.30 星期二》  [http://t.cn/A6LsKirA#区块链[超话]#](http://t.cn/A6LsKirA#%E5%8C%BA%E5%9D%97%E9%93%BE[%E8%B6%85%E8%AF%9D]#) #数字货币[超话]# #买价值币，只选XT# #比特币[超话]# #XT每日开工链新事儿? 06.30# #腾讯回应起诉老干妈#'

清洗完变

'发布了头条文章：《【XT】每日开工链新事儿06.30星期二》区块链'

有个tag没去掉？我猜测是作者少写一个map或者控制清洗顺序的函数，还没来得及看他源码可以通过函数定义多次清洗顺序来搞定（比如第一次只清洗tags，第二次只清洗网址之类的）具体的我得抽时间做一下实验

Myoontyee commented 1 year ago

更新2023年8月29日清洗是有顺序，我通过反复调用作者的函数，第一次专门清洗#后的内容，第二次专门html网址，解决了上述问题

blmoistawinde commented 1 year ago

你说的是不是
'发布了头条文章：《【XT】每日开工链新事儿 06.30 星期二》  [http://t.cn/A6LsKirA#区块链[超话]#](http://t.cn/A6LsKirA#%E5%8C%BA%E5%9D%97%E9%93%BE[%E8%B6%85%E8%AF%9D]#) #数字货币[超话]# #买价值币，只选XT# #比特币[超话]# #XT每日开工链新事儿? 06.30# #腾讯回应起诉老干妈#'
清洗完变
'发布了头条文章：《【XT】每日开工链新事儿06.30星期二》区块链'
有个tag没去掉？我猜测是作者少写一个map或者控制清洗顺序的函数，还没来得及看他源码可以通过函数定义多次清洗顺序来搞定（比如第一次只清洗tags，第二次只清洗网址之类的）具体的我得抽时间做一下实验

如果主要是这一类的问题，刚刚修复了一下。更新本库以后，现在得到的结果应该会是

发布了头条文章：《【XT】每日开工链新事儿 06.30 星期二》

主要是话题中间有一个空格，还有这里实际上有一个markdown的超链接格式，现在也会额外的去掉，提取出其中的文本，例如：

# markdown超链接提取文本
text1 = "欢迎使用[HarvestText : A Toolkit for Text Mining and Preprocessing](https://github.com/blmoistawinde/HarvestText)这个库"
print("markdown超链接提取文本")
print("原：", text1)
print("清洗后：", ht0.clean_text(text1, t2s=True))

markdown超链接提取文本
原： 欢迎使用[HarvestText : A Toolkit for Text Mining and Preprocessing](https://github.com/blmoistawinde/HarvestText)这个库
清洗后： 欢迎使用HarvestText : A Toolkit for Text Mining and Preprocessing这个库

blmoistawinde / HarvestText

文本清洗 #48