Open lauma opened 3 years ago
Piezīmes stāvoklim uz šo brīdi - morfanalizatorā ir realizēts atbalsts un tēzaura datos patstāvīgajiem divdabjiem salikti korekti dati; palikušas divas apakšproblēmas:
1) treebank datos ir simtiem šādu divdabju (šādu = par ko ir vienošanās, ka tagosim kā verbus-divdabjus) nomarķēti kā īpašības vārdi;
2) nepieciešams pabeigt pārējās lietas, sapakot tagera relīzi un pārtagot korpusus.
Vai ir iespējams iegūt sarakstu, kas treebank ir notagoti kā adjektīvi? Piemēram lemmas? Tad varētu pāriet pāri pēc vaicājuma lemma plus adjektīvs un izlabot. Manuālais darbiņš paliels, bet nav neizdarāms.
Saraksts ar idiem arī der. Tādus var samuķīt kopā vienā garā regulārajā izteiksmē un iet cauri konkrētajām vietām.
Liekas, ka importa skripts nav ticis galā ar divdabju karodziņa "Kategorija" pārveidošanu par "Vārdšķira", tāpēc šie divdabji jāsakārto manuāli, pie viena skatoties, vai tur nav dublējošas īpašības vārda leksēmas, kas jāizmet ārā.
Svarīgs vadlīniju precizēšanas un redaktora lietošanas nianšu jautājums šeit ir par to, kā pareizi norādīt, ka šie vārdi ir verba paradigmas divdabju daļas, un korpusos tagojami kā divdabji, nevis īpašības vārdi - kādai jābūt morfolemmai (it kā verba nenoteiksmei), kādam jābūt šķirkļavārdam, vai paradigmai jābūt kādai no īpašības vārdu un divdabju paradigmai vai arī jāliek verba paradigma kopā ar formu ierobežojumu (StructuralRestriction), vai vispār tur jāpārceļ pamatvārda šķirklī par nozīmi, t.i., vajag vadlīnijas, kā vēlami tēzaurēt divdabjus ar skaidrotām nozīmēm.
Relatīvi parastie -is/-usi divdabji ar noteikto galotni un abām dzimtēm - pašlaik salikti paradigmās 30 un 41, jo tur lokās pareizi. Jautājums par morfolemmu, vārdšķiru un atsevišķa šķirkļa eksistenci.
Arī parasts -is divdabis, bet tēzaurā laikam nav bijusi sieviešu dzimte
Mazliet jocīgāk - sieviešu dzimtes -usi divdabji - kur palika vīriešu dzimte?
Atgriezeniskie -ies/-usies divdabji - paradigma jau satur abas dzimtes
Viens diskriminēts -ts divdabis
-dams un -damies divdabjiem šobrīd nav iespējams piekārtot nekādu citu paradigmu kā vien atbilstošā verba un ierobežojumus, tāpēc importa laikā viņiem ir likta paradigma "0", kas nozīmēja "atpazīsts, bet nav savas paradigmas"