Closed shenxuhui closed 4 years ago
词语内聚程度:由于PMI的值会受到候选词长度的影响(候选词越长,互信息取值偏大),因此最终选择了平均互信息(AMI)
左右邻字丰富程度:比较常见的方法如HanLP使用的BE=min(左熵,右熵)。然而,存在一些BE无法解决的case。如:“在朋友圈”有BE=min(7.71,6.09)=6.09,“美图秀秀”有BE=min(6.09,6.29)=6.09。“在朋友圈”这类词汇,虽然不是严格意义上的短语,但是属于中文的常用表达,因此有较高的BE和AMI。它们唯一的弱点就是,左右某侧的表达会相对固定,因此 左右熵的差(|LE-RE|) 比一般的短语更大。因此我们在度量左右邻字丰富程度的时候,综合考虑了LE,RE,|LE-RE|。
词语内聚程度:由于PMI的值会受到候选词长度的影响(候选词越长,互信息取值偏大),因此最终选择了平均互信息(AMI)
左右邻字丰富程度:比较常见的方法如HanLP使用的BE=min(左熵,右熵)。然而,存在一些BE无法解决的case。如:“在朋友圈”有BE=min(7.71,6.09)=6.09,“美图秀秀”有BE=min(6.09,6.29)=6.09。“在朋友圈”这类词汇,虽然不是严格意义上的短语,但是属于中文的常用表达,因此有较高的BE和AMI。它们唯一的弱点就是,左右某侧的表达会相对固定,因此 左右熵的差(|LE-RE|) 比一般的短语更大。因此我们在度量左右邻字丰富程度的时候,综合考虑了LE,RE,|LE-RE|。
好想法!那请问句首的左信息熵和句尾的右信息熵,是如何计算的呢?以上方法会不会影响到句首和句尾的新词发现呢?
特别是 左右信息熵的 组合