Melyik volt az a korpusz?

r0ller / hi-hunmorph-foma

Hungarian morphological analyser for the Alice project:

3 stars 1 forks source link

Ezért saját gyűjtésű korpuszból vett listát használok. A korpuszból vett szógyűjtemény a noun/enhuossz3.lexc fájlban található meg. A szógyűjtemény nem szabályos szavait ezután kézzel átraktam a megfelelő .lexc fájlokba. A tesztelést és a szógyűjtemény javítását ezután magával a szógyűjteménnyel, a Szeged korpusz szókészletével majd a Szószablya projekt szókészletének felhasználásával végeztem. Minden esetben a Hunspellt használtam szűrőként

A Nyelvtudományi Kutatóközpont Lexikai tudásreprezentáció kutatócsoport vezetőjeként szeretnék érdeklődni: Megtudhatnánk, hogy ez a saját gyűjtésű korpusz mekkora volt és milyen alkorpuszokból állt össze? Szeretnénk használni a szótárt, de ezeket az alapinformációkat jó lenne tudni. Köszönettel: Simon László

Kedves László!

A projekt eredeti szerzője a contributors oldalon feltüntetett swan46, bár nem tudom kívülről látszik-e az az oldal. Elvileg ő is kaphat értesítést a kérdésről, de elég régóta nem aktív. Megpróbálom emailben továbbítani neki a kérdést, de nem tudom, hogy él-e még az emailcíme, ami nekem megvan. Én mindössze "hostolom" a projektet.

A projektről annyit, hogy két változata létezik: ez, amit megtaláltak illetve egy másik, amit direkt nem módosítok. A különbség annyi, hogy a hi-hunmorph-foma projektet a saját nlp hobbi projektem szükségleteinek megfelelően módosítom, míg a hunmoprh-foma az eredeti projekt állapotában maradt. Bár elvileg a hi-hunmorph-foma historyból is elő lehet keresni az első módíosítás előtti commitot és azt használni.

Üdv: r0ller

Ui.: Amennyiben emailben tartaná tovább a kapcsolatot, a github profilom oldalán van egy publikus emailcím. Amint swan válaszol megírhatom itt, vagy küldhetek emailt ha úgy jobbnak látja.

r0ller / hi-hunmorph-foma

Melyik volt az a korpusz? #1