blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.43k stars 330 forks source link

ht.clean_text内emoji或weibo_topic的功能改进建议 #50

Open Myoontyee opened 1 year ago

Myoontyee commented 1 year ago

描述你想要的功能 ht.clean_textemojiweibo_topic的功能,目前是去除[]包括的表情包(限定字符串长度)以及去除两个#之间包裹的内容 是否可以提供一个新的接口,可以去除给定首尾字符串如'【''】'之间的字符串(包括首尾字符串) 即,新参数如: specefic_cont: list ["【", "】", 20] 首、尾、上限长度 或者上限长度设为缺省,允许2个输入,即 specefic_con_start_end: list, specefic_con_len: int

如: specefic_con_start_end = ["【", "】“]specefic_con_len = 20

去除包括"【"和"】“在内,长度为20的字符串(话说我还不知道你源码限定的那个字符串长度,是包括两边的括号?还是没包括??)

是否有自己想过的可能解决方案? 有啊,魔改你的类库,哈哈!最近做实验赶时间还没来得及看你源码 我都打算拿你那个emoji直接改了

其他想说的 welldone,即便佬你不改我之后也会改一版...(泪目 怎么会有人在网上发帖,用这么多奇奇怪怪的括号啊..方括号大括号小括号,奇奇怪怪的括号啊救命