smoothnlp / SmoothNLP

专注于可解释的NLP技术 An NLP Toolset With A Focus on Explainable Inference
GNU General Public License v3.0
624 stars 112 forks source link

请问计算score而构造的统计量有什么依据么? #31

Closed shenxuhui closed 4 years ago

shenxuhui commented 4 years ago

特别是 左右信息熵的 组合

Yvette-Wang commented 4 years ago

词语内聚程度:由于PMI的值会受到候选词长度的影响(候选词越长,互信息取值偏大),因此最终选择了平均互信息(AMI)

PMI

左右邻字丰富程度:比较常见的方法如HanLP使用的BE=min(左熵,右熵)。然而,存在一些BE无法解决的case。如:“在朋友圈”有BE=min(7.71,6.09)=6.09,“美图秀秀”有BE=min(6.09,6.29)=6.09。“在朋友圈”这类词汇,虽然不是严格意义上的短语,但是属于中文的常用表达,因此有较高的BE和AMI。它们唯一的弱点就是,左右某侧的表达会相对固定,因此 左右熵的差(|LE-RE|) 比一般的短语更大。因此我们在度量左右邻字丰富程度的时候,综合考虑了LE,RE,|LE-RE|。

shenxuhui commented 4 years ago

词语内聚程度:由于PMI的值会受到候选词长度的影响(候选词越长,互信息取值偏大),因此最终选择了平均互信息(AMI)

PMI

左右邻字丰富程度:比较常见的方法如HanLP使用的BE=min(左熵,右熵)。然而,存在一些BE无法解决的case。如:“在朋友圈”有BE=min(7.71,6.09)=6.09,“美图秀秀”有BE=min(6.09,6.29)=6.09。“在朋友圈”这类词汇,虽然不是严格意义上的短语,但是属于中文的常用表达,因此有较高的BE和AMI。它们唯一的弱点就是,左右某侧的表达会相对固定,因此 左右熵的差(|LE-RE|) 比一般的短语更大。因此我们在度量左右邻字丰富程度的时候,综合考虑了LE,RE,|LE-RE|。

好想法!那请问句首的左信息熵和句尾的右信息熵,是如何计算的呢?以上方法会不会影响到句首和句尾的新词发现呢?