eellak / glossAPI

Ground work for a Greek Open Source LLM -- Εργασίες θεμελίωσης ενός Ελληνικού LLM Ανοιχτού Κώδικα
https://eellak.gr
Other
81 stars 1 forks source link

Ποιοτικές πηγές δεδομένων #1

Closed PanosJee closed 6 months ago

PanosJee commented 9 months ago

Γνωρίζουμε πού υπάρχουν ποιοτικά αποθετήρια δεδομένων; Απλά κάποιες ιδέες που μου έρχονται:

tgkarounos commented 9 months ago

Στις Παρ 29 Σεπ 2023 στις 11:27 π.μ., ο/η Panos Papadopoulos < @.***> έγραψε:

Γνωρίζουμε πού υπάρχουν ποιοτικά αποθετήρια δεδομένων; Απλά κάποιες ιδέες που μου έρχονται:

  • Αρχείο ΕΡΤ
  • Εφημερίδα της Κυβέρνησης
  • Εθνικό κέντρο τεκμηρίωσης
  • Πανεπιστημιακά συγγράματα, ερευνητικές εργασίες, πρακτικά συνεδρίων
  • Ιστορικά αρχεία εφημεριδών
  • Ελληνική Wikipedia

— Reply to this email directly, view it on GitHub https://github.com/eellak/glossAPI/issues/1, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAGR6TDPIWCVCKAFLTLBV3DX42BATANCNFSM6AAAAAA5MDWPZM . You are receiving this because you are subscribed to this thread.Message ID: @.***>

-- Θεόδωρος Καρούνος, PGP KEY https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key


https://ellak.gr/wiki/ - https://gfoss.eu/ - https://ellak.gr/

zvr commented 9 months ago

και η ΕυρωπαΪκή Ένωση έχει πολύ κείμενο στα Ελληνικά, νομικό και άλλο.

Λογοτεχνικά κείμενα εκτός copyright δεν είναι σε δημοτική / μονοτονικό. Αν δεν ενοχλεί αυτό, υπάρχουν πολλά.

ninagial commented 8 months ago

Πράγματι, το θέμα της διαθεσιμότητας πηγών και ειδικά μηχανικά αναγνώσιμων πηγών είναι το πλέον προβληματικό σημείο.

Σε αυτή τη φάση είμαστε ακριβώς σε διαδικασία καταγραφής και αποτίμησης πηγών. Δείτε το https://github.com/eellak/glossAPI/commit/948ec46def18b192ad1fc56ee4d77d91da9140ab .

Οδηγίες για συνεισφορά στο CONTRIBUTING.md

Προφανώς και μόνη της η συλλογική διαμόρφωση ενός ανοιχτού, διαλειτουργικού, καθαρού, Ελληνικού corpus θα είναι πρόοδος για οποιοδήποτε εγχείρημα μηχανικής μάθησης στα Ελληνικά.

Συνεχίζω να παρακολουθώ σχόλια και παρατηρήσεις εδώ.

dkapt commented 7 months ago

"WordNet is a lexical database of semantic relations between words" ~ Wikipedia http://globalwordnet.org/resources/wordnets-in-the-world/

Balkanet · Multilingual (Bulgarian/ Czech/ Greek/ Romanian/ Serbian/ Turkish) http://www.dblab.upatras.gr/balkanet/ http://www.dblab.upatras.gr/balkanet/resources.htm

Σε αυτό το project είχε εργαστεί ο αποθανών καθηγητής Δημήτριος Χριστοδουλάκης. Γνωρίζει κάποιος περισσότερες πληροφορίες;

ninagial commented 7 months ago

"WordNet is a lexical database of semantic relations between words" ~ Wikipedia http://globalwordnet.org/resources/wordnets-in-the-world/

Balkanet · Multilingual (Bulgarian/ Czech/ Greek/ Romanian/ Serbian/ Turkish) http://www.dblab.upatras.gr/balkanet/ http://www.dblab.upatras.gr/balkanet/resources.htm

Σε αυτό το project είχε εργαστεί ο αποθανών καθηγητής Δημήτριος Χριστοδουλάκης. Γνωρίζει κάποιος περισσότερες πληροφορίες;

Πρόκειται για μια "λεξική οντολογία" που αναπτύχθηκε με χρηματοδοτούμενο πρόγραμμα από το Princeton και είναι προσβάσιμη από διάφορες γλώσσες προγραμματισμού πχ ως βιβλιοθήκη wn στην Python. Πρόκειται για ένα από τα προηγούμενα μεγάλα έργα μηχανικά αναγνώσιμης επισημείωσης της αγγλικής γλώσσας, που έχουμε αναφέρει στην αρθρογραφία μας, και έχει επηρεάσει άλλες πιό ειδικές λύσεις όπως το https://aclanthology.org/L10-1531/ που εστιάζει σε sentiment analysis, ή πολυγλωσσικά wordnet όπως το Balkanet που αναφέρετε. Αν σας ενδιαφέρει λάβετε υπόψη και το framenet .

ninagial commented 7 months ago

Γνωρίζουμε πού υπάρχουν ποιοτικά αποθετήρια δεδομένων; Απλά κάποιες ιδέες που μου έρχονται:

* Αρχείο ΕΡΤ

* Εφημερίδα της Κυβέρνησης

* Εθνικό κέντρο τεκμηρίωσης

* Πανεπιστημιακά συγγράματα, ερευνητικές εργασίες, πρακτικά συνεδρίων

* Ιστορικά αρχεία εφημεριδών

* Ελληνική Wikipedia

Παρακαλώ, αν το επιθυμείτε να κοιτάξετε στο wiki αυτού του αποθετηρίου για την καταγραφή πηγών που διεξάγουμε, και φυσικά αν θέλετε να συνεισφέρετε σύμφωνα με το CONTRIBUTING.md

ninagial commented 7 months ago

και η ΕυρωπαΪκή Ένωση έχει πολύ κείμενο στα Ελληνικά, νομικό και άλλο.

Λογοτεχνικά κείμενα εκτός copyright δεν είναι σε δημοτική / μονοτονικό. Αν δεν ενοχλεί αυτό, υπάρχουν πολλά.

Αν δείτε στο τμήμα καταγραφής πηγών υπάρχουν εύκολα προσβάσιμες συλλογές από όλα αυτά, πχ στο OPUS. Το ερώτημα είναι, αν αυτές οι πηγές έχουν ήδη περιληφθεί στα διάφορα μοντέλα που βρίσκουμε στο huggingface τί έχουμε παραπάνω να προσφέρουμε εμείς;

Αυτά δεν τα έχουμε απαντήσει ακόμα. Περνάω στο επόμενο θέμα που θίγετε:

Δυστυχώς το OCRing όσο το έχω δοκιμάσει δεν είναι πολύ καλό στα ελληνικά, ούτε στο μονοτονικό μερικές φορές. Αυτό αυξάνει τον φόρτο εργασίας και για την διόρθωση επαλήθευση, αναλογικά με τον όγκο των εισερχόμενων κειμένων.

Σχετικά με δημοτική, υποτίθεται ότι σύμφωνα με τους στόχους τους εγχειρήματος που αναφέρονται στο README η κάλυψη διαφορετικών εποχών και διαφορετικών ποικιλιών της γλώσσας θεωρείται πρωταρχικής σημασίας, ειδικά για εφαρμογές όπως τα νομικά πολλά από τα οποία μπορούν να είναι γραμμένα σε απαιτητική γλώσσα.

Έχουμε κρίνει ότι η εκπαίδευση του μοντέλου σε παλαιότερες και πιο απαιτητικές ποικιλίες της Νέας Ελληνικής θα συνεισφέρουν σε καλύτερες επιδόσεις του μοντέλου σε έργα νομικού και ευρύτερα ακαδημαϊκού χαρακτήρα. Το ίδιο όμως θεωρούμε για τις αργκό, τις τοπικές ποικιλίες, και τα εξειδικευμένα λεξιλόγια (jargons).

Κάποια από αυτά τα θέματα θίγονται στο επόμενο άρθρο που θα ανεβάσουμε.

dkapt commented 7 months ago

"WordNet is a lexical database of semantic relations between words" ~ Wikipedia http://globalwordnet.org/resources/wordnets-in-the-world/ Balkanet · Multilingual (Bulgarian/ Czech/ Greek/ Romanian/ Serbian/ Turkish) http://www.dblab.upatras.gr/balkanet/ http://www.dblab.upatras.gr/balkanet/resources.htm Σε αυτό το project είχε εργαστεί ο αποθανών καθηγητής Δημήτριος Χριστοδουλάκης. Γνωρίζει κάποιος περισσότερες πληροφορίες;

Πρόκειται για μια "λεξική οντολογία" που αναπτύχθηκε με χρηματοδοτούμενο πρόγραμμα από το Princeton και είναι προσβάσιμη από διάφορες γλώσσες προγραμματισμού πχ ως βιβλιοθήκη wn στην Python. Πρόκειται για ένα από τα προηγούμενα μεγάλα έργα μηχανικά αναγνώσιμης επισημείωσης της αγγλικής γλώσσας, που έχουμε αναφέρει στην αρθρογραφία μας, και έχει επηρεάσει άλλες πιό ειδικές λύσεις όπως το https://aclanthology.org/L10-1531/ που εστιάζει σε sentiment analysis, ή πολυγλωσσικά wordnet όπως το Balkanet που αναφέρετε. Αν σας ενδιαφέρει λάβετε υπόψη και το framenet .

Το BalkaNet, ίσως βοηθήσει στη δημιουργία ενός ελληνικού ψηφιακού λεξικού (vocabulary), που είναι απαραίτητο για τη λειτουργία ενός μοντέλου τύπου transformer.

Επιπλέον, θα πρέπει να ρυθμιστεί ένα κοινό πλαίσιο/κανονισμός που θα ορίζει τον τρόπο κατακερματισμού (tokenization) των λέξεων· σύμβολα τα οποία θα αποτελούν το εν λόγω λεξικό!

Π.χ. η OpenAI χρησιμοποιεί ένα λεξικό με περίπου 50.000 σύμβολα (tokens).

ninagial commented 6 months ago

Π.χ. η OpenAI χρησιμοποιεί ένα λεξικό με περίπου 50.000 σύμβολα (tokens).

Δείτε αν σας καλύπτει αυτό, και θα επανέλθω.

Για παράδειγμα χρήσης, ενδεικτικά

Γνωρίζουμε πού υπάρχουν ποιοτικά αποθετήρια δεδομένων; Απλά κάποιες ιδέες που μου έρχονται:

Καθώς η απογραφή αποθετηρίων δεδομένων έχει προχωρήσει, βλ εδώ κλείνω το issue, για νέες προτάσεις πηγών create issue ή ζητάτε πρόσβαση για να προσθέτετε απευθείας στο wiki.