blmoistawinde / HarvestText

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法
MIT License
2.42k stars 329 forks source link

Sentiment Analysis Improvement(Stopwords Considered) #7

Closed Sean16SYSU closed 5 years ago

Sean16SYSU commented 5 years ago

关于情感分析,这里做了两个主要的改进:

  1. 之前的训练当中夹杂着大量的stopwords或者那些Meaningless vocabularies. 训练的时候这些词汇也被考虑进去了,导致了训练的结果非常不理想。(即大量的stopwords也被赋予了特定的含义,但实际上是无意义的,但这些stopwords和pos或者是neg都会高度一致的出现,使得他们的分数理论上会接近于pos和neg的种子词汇的某种数学关系。根据SO-PMI的计算方式,可以看到训练的模型输出的分数的期望理论上(stopwords足够多)是会收敛到(pos - neg)/(pos + neg)。(在我们这,由于默认的数据集中pos词汇大于neg中,因此最后的结果很大概率会是pos))
  2. 如果训练集中只有某一类的(pos or neg)的话,理论上也是可以计算的。
blmoistawinde commented 5 years ago

挺好的一些改进点,我在想说不定还可以把目前内置的一套停用词作为默认参数,不过还需要做些实验看看效果到底能不能提升,后面再说吧。这个先merge了