PeterisP / morphology

Latvian morphology module
GNU General Public License v3.0
32 stars 9 forks source link

Dubultuzvārdu pamatforma #22

Open VaBaiba opened 6 years ago

VaBaiba commented 6 years ago

Īsti neesmu pārliecināta, vai zinām, kāda ir dubultuzvārdu pamatforma, morfotags un kā viņi tokenizējas. Otrajam uzvārdam dubultuzvārdā noteikti nav jābūt ar mazu burtu (kā kokos a-p3758-p10s2w3). Bet- kā ar pārējo? @lauma

PeterisP commented 6 years ago

Pašreizējā tokenizācija uzskata, ka defise vārda vidū ir vārda daļa un vārdu nesadala divos tokenos. Tas ir nepieciešams rindai tipisko defises lietojumu (piemēram, pēc https://lv.wikipedia.org/wiki/Defise); skatoties reālos piemērus morfokorpusā "Ēzelītis Ī-ā", "nail-art", "make-up", "dun-dun-dun-dunēšanas", "Jo-ma-jo", "Tā-ā-ā-da", "o-o-o", "Coca-cola", "atv-v-vēru", "e-paraksts", "e-pakalpojumi", "TEC-2", "VL-TB"(partijas), "Papua-Jaungvinejā", "Ha-ha-ha", "Virši-A", "kinokritiķis-ķe", "nano-tehnoloģijas" praktiski visi gadījumi izskatās tādi, ka tā nedalīt ir pareizi.

Jā, dubultie uzvārdi ir īpašs gadījums - ja izlemjam par to, ka viņus ir mērķtiecīgi dalīt divos vārdos, tad to var mēģināt realizēt. Mums LETA projektā bija risinājums tādu locīšanai - skat. http://api.tezaurs.lv:8182/inflect_phrase/Vaira%20V%C4%AB%C4%B7e-Freiberga?category=person

Vēl var diskutēt par saistītajiem lietvārdiem : "Austrumu-Rietumu koridorā", "Marksistiski-ļeņinistiskajā", "lāzeriem-mērierīcēm", "dzīves-pēc-septiņdesmit".

Otra alternatīva ir uzskatīt, ka tie ir kā viens tokens "vecāsmātes" kategorijā un vienkārši jāloka abas daļas korekti.

lrituma commented 3 years ago

Piedāvājums: 0) datumi un url ir izņēmumi, tiem ir sava shēma, tas nostrādā pirms šī; 1) netiek dalīti savienojumi, kur vienā pusē vai abās defisei ir tikai viens burts; 2) netike dalīti savienojumi, kur vienā pusē ir skaitlis; 3) tiek dalīti savienojumi, kur abās pusēs ir skaitļi; 4) atlikumus sadalīt, Pēteris piedāvā veidot izņēmumu sarakstu, - sab-ba, pop-up, Wi-fi. Tos vajadzētu tad arī ievietot tēzaurā kā leksēmas. Priecātos, ja vairāk dzīvo Tēzaurā, lai izņēmuma sarkasts nebūtu vajadzīgs ar laiku. Paskatos treebank datus, tika secinās, ka no visiem defisu savienojumiem trešdaļa būtu savienojumi ar vienu burtu klāt, trešdaļa būtu dubultuzvārdi, akronīmu savienojumi, ģeogrāfisko nosaukumu savienojumi (TB-LNNK, Latvijas-Igaunijas, Vīķe-Freiberga), pēdējā trešdaļa visādie pārējie - make-up, stostīšanās citācijas, vau-vau, jo-ma-jo, Il-de-France, u.c. Piedāvātajā risinājumā pirmā trešdaļa tiktu atstāta kopā, pēdējās divas daļas tiktu dalītas tekstvienībās, ja vien nav izņēmumu sarakstā. @VaBaiba @GuntaN

lauma commented 3 years ago

Precizēju, ka šeit runa ir par automātisko dalīšanu tekstvienībās.

Sintaktiski anotētajā korpusā vienmēr var pielabot, bet šis ir tas piedāvājums, kā automātiski marķētie teksti dalītos.

VaBaiba commented 3 years ago

Jā, izskatās ļoti optimāls risinājums, es piekrītu @lrituma Precizējumam: tie gadījumi, kad rādīta pārnešana jaunā rindā kā kor-po-rā-ci-ja (līdzīgi jo-ma-jo) arī tiks sadalīti, vai ne? Tas kopumā nav nekas briesmīgs

lauma commented 3 years ago

Jā, pašlaik tiktu sadalīti.

Mēs varam ielikt kā studentu tēmu nākotnē kādam uzdot uzrakstīt nelielu rīciņu, kas morfoanalizatora rezultātiem iet pāri un identificē zilbēs sadalītus vārdus vai stostīšanās attēlojumu "pa-pa-paldies" un piemarķē tur kaut ko klāt - apvieno vienā tokenā un pievieno pareizo lemmu vai tamlīdzīgi.