UD-Chinese

Tokenizer, POS-Tagger, and Dependency-Parser for Chinese (简体/繁體/文言文), working on Universal Dependencies.

Basic usage

>>> import udchinese
>>> zh=udchinese.load()
>>> s=zh("我把这本书看完了。吾既讀是書也。")
>>> print(s)
# newdoc
# newpar
# sent_id = 1
# text = 我把这本书看完了。
1   我   我   PRON    n,代名詞,人称,止格 Person=1|PronType=Prs   6   nsubj   _   SpaceAfter=No
2   把   把   ADP BB  _   5   case    _   SpaceAfter=No
3   这   這   DET DT  _   4   det _   SpaceAfter=No
4   本   本   NOUN    n,名詞,描写,形質  _   5   clf _   SpaceAfter=No
5   书   書   NOUN    n,名詞,主体,書物  _   6   obl:patient _   SpaceAfter=No
6   看   看   VERB    v,動詞,行為,動作  _   0   root    _   SpaceAfter=No
7   完   完   VERB    v,動詞,変化,性質  _   6   flat:vv _   SpaceAfter=No
8   了   了   PART    UH  _   6   discourse   _   SpaceAfter=No
9   。   。   PUNCT   s,記号,句点,*   _   6   punct   _   SpacesAfter=\n

# sent_id = 2
# text = 吾既讀是書也。
1   吾   吾   PRON    n,代名詞,人称,起格 Person=1|PronType=Prs   3   nsubj   _   SpaceAfter=No
2   既   既   ADV v,副詞,時相,完了  AdvType=Tim|Aspect=Perf 3   advmod  _   SpaceAfter=No
3   讀   讀   VERB    v,動詞,行為,動作  _   0   root    _   SpaceAfter=No
4   是   是   PRON    n,代名詞,指示,*  PronType=Dem    5   det _   SpaceAfter=No
5   書   書   NOUN    n,名詞,主体,書物  _   3   obj _   SpaceAfter=No
6   也   也   PART    p,助詞,句末,*   _   3   discourse:sp    _   SpaceAfter=No
7   。   。   PUNCT   s,記号,句点,*   _   3   punct   _   SpacesAfter=\n

Usage via spaCy

If you have already installed spaCy 2.1.0 or later, you can use UD-Chinese via spaCy Language pipeline.

>>> import udchinese.spacy
>>> zh=udchinese.spacy.load()
>>> d=zh("我把这本书看完了。吾既讀是書也。")
>>> print(type(d))
<class 'spacy.tokens.doc.Doc'>
>>> print(udchinese.spacy.to_conllu(d))
# text = 我把这本书看完了。
1   我   我   PRON    n,代名詞,人称,止格 _   6   nsubj   _   SpaceAfter=No
2   把   把   ADP BB  _   5   case    _   SpaceAfter=No
3   这   這   DET DT  _   4   det _   SpaceAfter=No
4   本   本   NOUN    n,名詞,描写,形質  _   5   clf _   SpaceAfter=No
5   书   書   NOUN    n,名詞,主体,書物  _   6   obl:patient _   SpaceAfter=No
6   看   看   VERB    v,動詞,行為,動作  _   0   root    _   SpaceAfter=No
7   完   完   VERB    v,動詞,変化,性質  _   6   flat:vv _   SpaceAfter=No
8   了   了   PART    UH  _   6   discourse   _   SpaceAfter=No
9   。   。   PUNCT   s,記号,句点,*   _   6   punct   _   _

# text = 吾既讀是書也。
1   吾   吾   PRON    n,代名詞,人称,起格 _   3   nsubj   _   SpaceAfter=No
2   既   既   ADV v,副詞,時相,完了  _   3   advmod  _   SpaceAfter=No
3   讀   讀   VERB    v,動詞,行為,動作  _   0   root    _   SpaceAfter=No
4   是   是   PRON    n,代名詞,指示,*  _   5   det _   SpaceAfter=No
5   書   書   NOUN    n,名詞,主体,書物  _   3   obj _   SpaceAfter=No
6   也   也   PART    p,助詞,句末,*   _   3   discourse:sp    _   SpaceAfter=No
7   。   。   PUNCT   s,記号,句点,*   _   3   punct   _   _

Installation for Linux

Binary-wheel is available for Linux, and is installed by default when you use pip:

pip install udchinese

Installation for Cygwin

Make sure to get gcc-g++ python37-pip python37-devel packages, and then:

pip3.7 install udchinese

Use python3.7 command in Cygwin instead of python.

Installation for Jupyter Notebook (Google Colaboratory)

!pip install udchinese

Author

Koichi Yasuoka (安岡孝一)

KoichiYasuoka / UD-Chinese

readme