Open karst10607 opened 6 years ago
目前先決定,先來比對Stanford NLP(Java) 和 Spacy(Python)的pos差別多大。 畢竟要先選一個體系來做。 最近在相關的學術書籍上可以看到詳細的列舉最知名的NLP框架了,但pos的部分沒有那麼詳細的比較。 我先過濾後,在來跟雯討論要用哪個。 畢竟主要是她在寫。
A complete introduction on Stanford NLP mechanism and usage. http://www.voidcn.com/article/p-mmefporc-bdu.html
找到類似的答案了。http://universaldependencies.org/u/pos/ Spacy宣稱使用的是這套pos 系統。 https://spacy.io/api/annotation#pos-tagging
所以應該是這個為主。不管是corenlp或spacy,都要能提供這種pos。 至於corenlp(java),以及spacy(python3 64bit only) 的安裝大困難,另外開單追蹤討論。
目前應該是確定會使用coreNLP 或openNLP其中一種,因為決定走Java體系了。
先隨便列一些,正式還要再細分 另外,如果想用Stanford的 Java NLP,它們有自己一套的POS,跟其他人用的不相同。 比較特別的是NLTK,他是用corenlp的核心,但卻是用py3去運作的。這個目前先不列入考慮範圍。
以上最基本的tag至少要先想辦法去對應SpaCy 和 CoreNLP, OpenNLP 體系的pos POS accuracy:
Another issue is ability to cross-platform
Support and popularity: Spacy got far better support than StanforNLP...At least from what I have found.