Open VaBaiba opened 6 years ago
Pašreizējā tokenizācija uzskata, ka defise vārda vidū ir vārda daļa un vārdu nesadala divos tokenos. Tas ir nepieciešams rindai tipisko defises lietojumu (piemēram, pēc https://lv.wikipedia.org/wiki/Defise); skatoties reālos piemērus morfokorpusā "Ēzelītis Ī-ā", "nail-art", "make-up", "dun-dun-dun-dunēšanas", "Jo-ma-jo", "Tā-ā-ā-da", "o-o-o", "Coca-cola", "atv-v-vēru", "e-paraksts", "e-pakalpojumi", "TEC-2", "VL-TB"(partijas), "Papua-Jaungvinejā", "Ha-ha-ha", "Virši-A", "kinokritiķis-ķe", "nano-tehnoloģijas" praktiski visi gadījumi izskatās tādi, ka tā nedalīt ir pareizi.
Jā, dubultie uzvārdi ir īpašs gadījums - ja izlemjam par to, ka viņus ir mērķtiecīgi dalīt divos vārdos, tad to var mēģināt realizēt. Mums LETA projektā bija risinājums tādu locīšanai - skat. http://api.tezaurs.lv:8182/inflect_phrase/Vaira%20V%C4%AB%C4%B7e-Freiberga?category=person
Vēl var diskutēt par saistītajiem lietvārdiem : "Austrumu-Rietumu koridorā", "Marksistiski-ļeņinistiskajā", "lāzeriem-mērierīcēm", "dzīves-pēc-septiņdesmit".
Otra alternatīva ir uzskatīt, ka tie ir kā viens tokens "vecāsmātes" kategorijā un vienkārši jāloka abas daļas korekti.
Piedāvājums: 0) datumi un url ir izņēmumi, tiem ir sava shēma, tas nostrādā pirms šī; 1) netiek dalīti savienojumi, kur vienā pusē vai abās defisei ir tikai viens burts; 2) netike dalīti savienojumi, kur vienā pusē ir skaitlis; 3) tiek dalīti savienojumi, kur abās pusēs ir skaitļi; 4) atlikumus sadalīt, Pēteris piedāvā veidot izņēmumu sarakstu, - sab-ba, pop-up, Wi-fi. Tos vajadzētu tad arī ievietot tēzaurā kā leksēmas. Priecātos, ja vairāk dzīvo Tēzaurā, lai izņēmuma sarkasts nebūtu vajadzīgs ar laiku. Paskatos treebank datus, tika secinās, ka no visiem defisu savienojumiem trešdaļa būtu savienojumi ar vienu burtu klāt, trešdaļa būtu dubultuzvārdi, akronīmu savienojumi, ģeogrāfisko nosaukumu savienojumi (TB-LNNK, Latvijas-Igaunijas, Vīķe-Freiberga), pēdējā trešdaļa visādie pārējie - make-up, stostīšanās citācijas, vau-vau, jo-ma-jo, Il-de-France, u.c. Piedāvātajā risinājumā pirmā trešdaļa tiktu atstāta kopā, pēdējās divas daļas tiktu dalītas tekstvienībās, ja vien nav izņēmumu sarakstā. @VaBaiba @GuntaN
Precizēju, ka šeit runa ir par automātisko dalīšanu tekstvienībās.
Sintaktiski anotētajā korpusā vienmēr var pielabot, bet šis ir tas piedāvājums, kā automātiski marķētie teksti dalītos.
Jā, izskatās ļoti optimāls risinājums, es piekrītu @lrituma Precizējumam: tie gadījumi, kad rādīta pārnešana jaunā rindā kā kor-po-rā-ci-ja (līdzīgi jo-ma-jo) arī tiks sadalīti, vai ne? Tas kopumā nav nekas briesmīgs
Jā, pašlaik tiktu sadalīti.
Mēs varam ielikt kā studentu tēmu nākotnē kādam uzdot uzrakstīt nelielu rīciņu, kas morfoanalizatora rezultātiem iet pāri un identificē zilbēs sadalītus vārdus vai stostīšanās attēlojumu "pa-pa-paldies" un piemarķē tur kaut ko klāt - apvieno vienā tokenā un pievieno pareizo lemmu vai tamlīdzīgi.
Īsti neesmu pārliecināta, vai zinām, kāda ir dubultuzvārdu pamatforma, morfotags un kā viņi tokenizējas. Otrajam uzvārdam dubultuzvārdā noteikti nav jābūt ar mazu burtu (kā kokos a-p3758-p10s2w3). Bet- kā ar pārējo? @lauma