Σχόλιο στο https://eellak.ellak.gr/2018/08/27/oloklirothikan-me-epitichia-ta-10-erga-tou-organismou-anichton-technologion-sto-google-summer-of-code-2018/

Η Προσθήκη ελληνικής υποστήριξης στην βιβλιοθήκη NLP του Spacy.io δεν φαίνεται πολύ καλή. Τα Ελληνικά, οι λατινικές γλώσσες και οι σλαβικές γλώσσες δεν είναι σαν τα αγγλικά ή τα ιαπωνικά όπου ο ορισμός μιας λέξης καθορίζει το μέρος του λόγου, πχ τα αγγλικά ουσιαστικά χωρίζονται με βάση τον αριθμό(ενικός, πληθυντικός) και τα ρήματα χωρίζονται σε 3 μονολεκτικούς χρόνους. Η αναγνώριση του μέρους του λόγου στα ελληνικά μπορεί να γίνει με μία αναζήτηση στο wiktionary, αλλά η εξαγωγή τον χαρακτηριστικών του μέρους του λόγου(πτώση, αριθμός, γένος, φωνή, χρόνος, πρόσωπο) θέλει πολύ δουλειά ιδιαίτερα στα ρήματα. Η lexigram έχει κάνει καλή δουλειά αλλά δεν είναι ανοιχτό λογισμικό, δεν προχώρησαν στο NLP-Wordnet-Machine Learning, μάλλον χρεοκόπησαν, σαν την Magenta. ... Το σχόλιο

eellak / gsoc2018-spacy

Σχόλιο στο https://eellak.ellak.gr/2018/08/27/oloklirothikan-me-epitichia-ta-10-erga-tou-organismou-anichton-technologion-sto-google-summer-of-code-2018/ #4