请问计算score而构造的统计量有什么依据么？

smoothnlp / SmoothNLP

专注于可解释的NLP技术 An NLP Toolset With A Focus on Explainable Inference

GNU General Public License v3.0

624 stars 112 forks source link

词语内聚程度：由于PMI的值会受到候选词长度的影响（候选词越长，互信息取值偏大），因此最终选择了平均互信息(AMI)

左右邻字丰富程度：比较常见的方法如HanLP使用的BE=min(左熵,右熵)。然而，存在一些BE无法解决的case。如：“在朋友圈”有BE=min(7.71,6.09)=6.09，“美图秀秀”有BE=min(6.09,6.29)=6.09。“在朋友圈”这类词汇，虽然不是严格意义上的短语，但是属于中文的常用表达，因此有较高的BE和AMI。它们唯一的弱点就是，左右某侧的表达会相对固定，因此左右熵的差(|LE-RE|) 比一般的短语更大。因此我们在度量左右邻字丰富程度的时候，综合考虑了LE,RE,|LE-RE|。

词语内聚程度：由于PMI的值会受到候选词长度的影响（候选词越长，互信息取值偏大），因此最终选择了平均互信息(AMI)

左右邻字丰富程度：比较常见的方法如HanLP使用的BE=min(左熵,右熵)。然而，存在一些BE无法解决的case。如：“在朋友圈”有BE=min(7.71,6.09)=6.09，“美图秀秀”有BE=min(6.09,6.29)=6.09。“在朋友圈”这类词汇，虽然不是严格意义上的短语，但是属于中文的常用表达，因此有较高的BE和AMI。它们唯一的弱点就是，左右某侧的表达会相对固定，因此左右熵的差(|LE-RE|) 比一般的短语更大。因此我们在度量左右邻字丰富程度的时候，综合考虑了LE,RE,|LE-RE|。

好想法！那请问句首的左信息熵和句尾的右信息熵，是如何计算的呢？以上方法会不会影响到句首和句尾的新词发现呢？

smoothnlp / SmoothNLP

请问计算score而构造的统计量有什么依据么？ #31