LUMII-AILab / LVWordNet

Dati, skripti un biļetes LVWordNet projektam
0 stars 0 forks source link

Divdabji tēzaurā - imports un vadlīnijas #33

Open lauma opened 3 years ago

lauma commented 3 years ago

Liekas, ka importa skripts nav ticis galā ar divdabju karodziņa "Kategorija" pārveidošanu par "Vārdšķira", tāpēc šie divdabji jāsakārto manuāli, pie viena skatoties, vai tur nav dublējošas īpašības vārda leksēmas, kas jāizmet ārā.

Svarīgs vadlīniju precizēšanas un redaktora lietošanas nianšu jautājums šeit ir par to, kā pareizi norādīt, ka šie vārdi ir verba paradigmas divdabju daļas, un korpusos tagojami kā divdabji, nevis īpašības vārdi - kādai jābūt morfolemmai (it kā verba nenoteiksmei), kādam jābūt šķirkļavārdam, vai paradigmai jābūt kādai no īpašības vārdu un divdabju paradigmai vai arī jāliek verba paradigma kopā ar formu ierobežojumu (StructuralRestriction), vai vispār tur jāpārceļ pamatvārda šķirklī par nozīmi, t.i., vajag vadlīnijas, kā vēlami tēzaurēt divdabjus ar skaidrotām nozīmēm.

Relatīvi parastie -is/-usi divdabji ar noteikto galotni un abām dzimtēm - pašlaik salikti paradigmās 30 un 41, jo tur lokās pareizi. Jautājums par morfolemmu, vārdšķiru un atsevišķa šķirkļa eksistenci.

aizpagājušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]
cietušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]
iereibušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]
izgājušais:1 lexeme 30 [ 'Darbības vārds' , lexeme 41 [ 'Darbības vārds' ]
kritušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]
mirušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]
nomirušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]
pagājušais:1 lexeme 30 [ 'Darbības vārds' ], lexeme 41 [ 'Darbības vārds' ]

Arī parasts -is divdabis, bet tēzaurā laikam nav bijusi sieviešu dzimte

vienpiedzimušais:1 lexeme 30 [ 'Darbības vārds' ]

Mazliet jocīgāk - sieviešu dzimtes -usi divdabji - kur palika vīriešu dzimte?

bijusī:1 lexeme 41 [ 'Īpašības vārds' ]
pieaugusī:1 lexeme 41 [ 'Darbības vārds' ]

Atgriezeniskie -ies/-usies divdabji - paradigma jau satur abas dzimtes

izdevies:1 lexeme 43 [ 'Darbības vārds' ]
neizdevies:1 lexeme 43 [ 'Darbības vārds' ]
nepievienojies:1 lexeme 43 [ 'Darbības vārds' ]
neprecējies:1 lexeme 43 [ 'Darbības vārds' ]
piedzēries:1 lexeme 43 [ 'Darbības vārds' ]
pusapģērbies:1 lexeme 43 [ 'Darbības vārds' ]
sakucies:1 lexeme 43 [ 'Darbības vārds' ]

Viens diskriminēts -ts divdabis

nerafinēts:1 lexeme 13 [ 'Darbības vārds' ]

-dams un -damies divdabjiem šobrīd nav iespējams piekārtot nekādu citu paradigmu kā vien atbilstošā verba un ierobežojumus, tāpēc importa laikā viņiem ir likta paradigma "0", kas nozīmēja "atpazīsts, bet nav savas paradigmas"

neatņemdamies:1 lexeme 0 [ 'Darbības vārds' ]
neatraudamies:1 lexeme 0 [ 'Darbības vārds' ]
pusjokodamies:1 lexeme 0 [ 'Darbības vārds' ]
paklibodams:1 lexeme null [ 'Darbības vārds' ]
pusjokodams:1 lexeme 0 [ 'Darbības vārds' ]
PeterisP commented 3 years ago

Piezīmes stāvoklim uz šo brīdi - morfanalizatorā ir realizēts atbalsts un tēzaura datos patstāvīgajiem divdabjiem salikti korekti dati; palikušas divas apakšproblēmas:

1) treebank datos ir simtiem šādu divdabju (šādu = par ko ir vienošanās, ka tagosim kā verbus-divdabjus) nomarķēti kā īpašības vārdi;

2) nepieciešams pabeigt pārējās lietas, sapakot tagera relīzi un pārtagot korpusus.

lrituma commented 3 years ago

Vai ir iespējams iegūt sarakstu, kas treebank ir notagoti kā adjektīvi? Piemēram lemmas? Tad varētu pāriet pāri pēc vaicājuma lemma plus adjektīvs un izlabot. Manuālais darbiņš paliels, bet nav neizdarāms.

lauma commented 3 years ago

Saraksts ar idiem arī der. Tādus var samuķīt kopā vienā garā regulārajā izteiksmē un iet cauri konkrētajām vietām.