KoichiYasuoka / spaCy-Thai

Dependency parser on Thai language
MIT License
24 stars 2 forks source link

Current PyPI packages

spaCy-Thai

Tokenizer, POS-tagger, and dependency-parser for Thai language, working on Universal Dependencies.

Basic Usage

>>> import spacy_thai
>>> nlp=spacy_thai.load()
>>> doc=nlp("แผนกนี้กำลังเผชิญกับความท้าทายใหม่")
>>> for t in doc:
...   print("\t".join([str(t.i+1),t.orth_,t.lemma_,t.pos_,t.tag_,"_",str(0 if t.head==t else t.head.i+1),t.dep_,"_","_" if t.whitespace_ else "SpaceAfter=No"]))
...
1   แผนก    แผนก    NOUN    NCMN    _   4   nsubj   _   SpaceAfter=No
2   นี้ นี้ DET DDAC    _   1   det _   SpaceAfter=No
3   กำลัง   กำลัง   AUX XVBM    _   4   aux _   SpaceAfter=No
4   เผชิญ   เผชิญ   VERB    VSTA    _   0   ROOT    _   SpaceAfter=No
5   กับ กับ ADP RPRE    _   6   case    _   SpaceAfter=No
6   ความ    ความ    PART    FIXN    _   4   obl _   SpaceAfter=No
7   ท้าทาย  ท้าทาย  VERB    VACT    _   6   acl _   SpaceAfter=No
8   ใหม่    ใหม่    ADV ADVN    _   7   advmod  _   SpaceAfter=No
>>> import deplacy
>>> deplacy.render(doc,WordRight=True)
 nsubj ╔════════>╔═ NOUN แผนก
   det ║         ╚> DET  นี้
   aux ║ ╔════════> AUX  กำลัง
  ROOT ╚═╚═╔═══════ VERB เผชิญ
  case     ║ ╔════> ADP  กับ
   obl     ╚>╚═╔═══ PART ความ
   acl         ╚>╔═ VERB ท้าทาย
advmod           ╚> ADV  ใหม่

Installation for Linux

pip3 install spacy_thai --user

Installation for Cygwin

Make sure to get python37-devel python37-pip python37-numpy python37-cython gcc-g++, and then:

pip3.7 install spacy_thai

Installation for Google Colaboratory

!pip install spacy_thai

Try notebook.