blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.42k stars 329 forks source link

语料处理增加对数学中符号的转化 #19

Open WongHunter opened 4 years ago

WongHunter commented 4 years ago

a³转化为a的三次幂,能够讲右上角阿拉伯数字转中文数字,还有计量单位也可以增加一下,电流,毫安,这些,能增加符号温度℃这些更完美了

电流 | 安(培) | A 平面角1°=60ˊ

blmoistawinde commented 4 years ago

感谢你的建议!感觉这可以做成一个挺有用的新特性,并且可以通过类似添加新实体一类的方法来比较方便地融入到这个库里来。

可以的话,我还希望你能够提供一些更详细的描述,这样我可以在设计的时候把这个功能做得更加通用、实用。

  1. 你希望处理的文本数据大概是来源于哪里呢?

看你的描述,感觉很像是教材或者学术文章一类的文本,一般社交网络里应该都很难打出三次方来吧(或者用a^3)。给我提供一些明确的来源的话,我可以去看看大概有哪些符号是需要处理的。

  1. 转化后希望用于什么下游任务里呢?

比如希望统一符号表示,便于使用统一的模式进行信息抽取?比如从30A里,利用(.*)安培的模式抽取出30

或者,甚至是进行单位换算、符号运算?

明确了这些任务的话,我可以看看是不是有一些其他功能也适合加入这个库里。

希望得到回复,谢谢!