fxsjy / jieba

结巴中文分词
MIT License
33.13k stars 6.72k forks source link

词性标注的问题 #266

Open hiericzhu opened 9 years ago

hiericzhu commented 9 years ago

请教一个词性标注的问题 现在的jieba.posseg.cut标注的词性w.flag,是不是都是从字典里面取出来的? 但是字典里面只定义了一种词性,而很多词是多词性的。

例如'连'这个词,在金山词霸网站可以查到,'连'有多重词性 http://www.iciba.com/%E8%BF%9E

  1. 本义:(动)相连;连接。(副)连续;接续;继续(表示前后没有断开):~演三十场戏。
  2. 本义:(动)相连;连接。(介)包括在内:~我三个人|~根拔。
  3. 本义:(动)相连;连接。(名)军队的编制单位;由若干排组成。
  4. 本义:(动)相连;连接。(Lián)姓。

ltp是哈工大在线工具分析结果: http://www.ltp-cloud.com/demo/ 例句一:连小学生都会。 ltp: [连/u 小学生/n 都/d 会/v 。/wp] jieba: [连/nr 小学生/nr 都/d 会/v 。/x] -> 字典: 连 23315 nr

例句二:这是一个连的兵力。 ltp: [这/r 是/v 一个/m 连/n 的/u 兵力/n 。/wp] jieba: [这/r 是/v 一个/m 连的/d 兵力/n 。/x]

【问题】怎样定义多性词?比如'连'在第一个句子里应该是u,第二个句子里应该是n 谢谢。

Guangyi-Z commented 7 years ago

目前jieba的POS Tagging,基于词库分词后,对词库中存在的词,直接取用词典中的词性(第三列为词性);对于未登录词,再用HMM序列标注来同时完成新词发现和词性标注。 对于多性词,jieba的方案比较差,而中文中多性词约占了23.6%,比例还是很大的。 哈工大的LTP并不死绑词典中的词性,而考虑了上下文,并针对未登录词做了不少优化,相较之下好很多。