Σχόλιο στο https://eellak.ellak.gr/2018/08/27/oloklirothikan-me-epitichia-ta-10-erga-tou-organismou-anichton-technologion-sto-google-summer-of-code-2018/ #4
Η Προσθήκη ελληνικής υποστήριξης στην βιβλιοθήκη NLP του Spacy.io δεν φαίνεται πολύ καλή. Τα Ελληνικά, οι λατινικές γλώσσες και οι σλαβικές γλώσσες δεν είναι σαν τα αγγλικά ή τα ιαπωνικά όπου ο ορισμός μιας λέξης καθορίζει το μέρος του λόγου, πχ τα αγγλικά ουσιαστικά χωρίζονται με βάση τον αριθμό(ενικός, πληθυντικός) και τα ρήματα χωρίζονται σε 3 μονολεκτικούς χρόνους.
Η αναγνώριση του μέρους του λόγου στα ελληνικά μπορεί να γίνει με μία αναζήτηση στο wiktionary, αλλά η εξαγωγή τον χαρακτηριστικών του μέρους του λόγου(πτώση, αριθμός, γένος, φωνή, χρόνος, πρόσωπο) θέλει πολύ δουλειά ιδιαίτερα στα ρήματα. Η lexigram έχει κάνει καλή δουλειά αλλά δεν είναι ανοιχτό λογισμικό, δεν προχώρησαν στο NLP-Wordnet-Machine Learning, μάλλον χρεοκόπησαν, σαν την Magenta.
... Το σχόλιο
Η Προσθήκη ελληνικής υποστήριξης στην βιβλιοθήκη NLP του Spacy.io δεν φαίνεται πολύ καλή. Τα Ελληνικά, οι λατινικές γλώσσες και οι σλαβικές γλώσσες δεν είναι σαν τα αγγλικά ή τα ιαπωνικά όπου ο ορισμός μιας λέξης καθορίζει το μέρος του λόγου, πχ τα αγγλικά ουσιαστικά χωρίζονται με βάση τον αριθμό(ενικός, πληθυντικός) και τα ρήματα χωρίζονται σε 3 μονολεκτικούς χρόνους. Η αναγνώριση του μέρους του λόγου στα ελληνικά μπορεί να γίνει με μία αναζήτηση στο wiktionary, αλλά η εξαγωγή τον χαρακτηριστικών του μέρους του λόγου(πτώση, αριθμός, γένος, φωνή, χρόνος, πρόσωπο) θέλει πολύ δουλειά ιδιαίτερα στα ρήματα. Η lexigram έχει κάνει καλή δουλειά αλλά δεν είναι ανοιχτό λογισμικό, δεν προχώρησαν στο NLP-Wordnet-Machine Learning, μάλλον χρεοκόπησαν, σαν την Magenta. ... Το σχόλιο