thunlp / THULAC-Python

An Efficient Lexical Analyzer for Chinese
MIT License
2.03k stars 336 forks source link

Any Part-of-speech standard Explatation? Compatible to Penn Chinese Treebank ? #11

Open eromoe opened 7 years ago

eromoe commented 7 years ago

Hi,

我最近在使用nltk 和 stanford corenlp。我发现 stanford 的词性标注标准 用的是 Penn Chinese Treebank ,如下

image

  1. 跟 thulac 的标注方式有很大的区别。但是官方文档中没有提是根据什么原则标注的。
  2. 不知道是否可以兼容 stanford 的词性标注方式,或者提供一个转换方式?
gzp9595 commented 7 years ago

非常感谢您对THULAC的支持,我们使用的标注主要是两种语料标注的融合形式:来自多文体的标注文本和人民日报标注文本等~ 和Stanford的词性标注方式的兼容问题,我们会在进行调研和研究后尽可能进行统一~

eromoe commented 7 years ago

谢谢回答。 我想问下是否能提供一个完整的词性标注表,因为文档里找不到说明,看着分词标注结果不知道什么意思。。


顺便给个我测试的例子,感觉转换也不难?

例句: 北海 已 成为 中国 对外开放 中 升起 的 一 颗 明星

thulac 词性标注:

北海 ns
已 d
成为 v
中国 ns
对外开放 id
中 f
升起 v
的 u
一 m
颗 q
明星 n

stanford 是

北海 NR
已 AD
成为 VV
中国 NR
对外开放 NN
中 LC
升起 VV
的 DEC
一 CD
颗 M
明星 NN
gzp9595 commented 7 years ago

您好,THULAC的词性表在ReadMe中附有,您可以对照观看~

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名 m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词 v/动词 a/形容词 d/副词 h/前接成分 k/后接成分 i/习语 j/简称 r/代词 c/连词 p/介词 u/助词 y/语气助词 e/叹词 o/拟声词 g/语素 w/标点 x/其它

eromoe commented 7 years ago

Thanks~!