karst10607 / SyntaxEd

A syntax dial app to measure the processing time of Mad-Lib style game, quantifying one's ability and improvement in certain natural language syntax
0 stars 0 forks source link

Determine the best NLP parser to use, and the most common POS tags to adopt #31

Open karst10607 opened 6 years ago

karst10607 commented 6 years ago

先隨便列一些,正式還要再細分 另外,如果想用Stanford的 Java NLP,它們有自己一套的POS,跟其他人用的不相同。 比較特別的是NLTK,他是用corenlp的核心,但卻是用py3去運作的。這個目前先不列入考慮範圍。

Descriptive SpaCy CoreNLP OpenNLP
conj
v
adj
adv
det
N

以上最基本的tag至少要先想辦法去對應SpaCy 和 CoreNLP, OpenNLP 體系的pos POS accuracy:

Another issue is ability to cross-platform

Support and popularity: Spacy got far better support than StanforNLP...At least from what I have found.

karst10607 commented 6 years ago

目前先決定,先來比對Stanford NLP(Java) 和 Spacy(Python)的pos差別多大。 畢竟要先選一個體系來做。 最近在相關的學術書籍上可以看到詳細的列舉最知名的NLP框架了,但pos的部分沒有那麼詳細的比較。 我先過濾後,在來跟雯討論要用哪個。 畢竟主要是她在寫。

karst10607 commented 6 years ago

A complete introduction on Stanford NLP mechanism and usage. http://www.voidcn.com/article/p-mmefporc-bdu.html

karst10607 commented 6 years ago

找到類似的答案了。http://universaldependencies.org/u/pos/ Spacy宣稱使用的是這套pos 系統。 https://spacy.io/api/annotation#pos-tagging

所以應該是這個為主。不管是corenlp或spacy,都要能提供這種pos。 至於corenlp(java),以及spacy(python3 64bit only) 的安裝大困難,另外開單追蹤討論。

karst10607 commented 6 years ago

目前應該是確定會使用coreNLP 或openNLP其中一種,因為決定走Java體系了。