Open tomsbergmanis opened 5 years ago
Mihaels noteikti ir kļūda, pārējais, manuprāt, tiek tā sistemātiski marķēts, bet par dziļāku loģiku tad tur būtu lingvistiem jākomentē.
Sistemātiski vai nē, bet vārdiem teikumos ir gramaitska funkcija, līdz ar to ir piemērojamas morfoloģiskas pazīmes. Ņemot vērā, ka tālāk šo datu kopu izmanto atkarību koku zīmēšanai, morfoloģiskās pazīmes ir nepieciešamas.
Latviešu valodas korpusā nelokāmiem lietvārdiem netiek piešķirta dzimte, skaitlis un locījums tāpēc, ka tos ne vienmēr var precīzi noteikt. 1) dzimte - ja lietvārdam ir skaidri zināma dzimte, ko mēs spreidīsim pēc gramatiskās norādes autoritatīvajā vārdnīcu resursā tezaurs.lv , tad arī vārdam tiks marķēta dzimte. Pārējos gadījumos mēs nevaram zināt, vai personvārds apzīmē sievieti vai vīrieti tekstos ar ārzemju personvārdiem , piemēram, "Lī" . Bet ne visiem nelokāmiem lietvārdiem ir iespējams dzimti noteikt, valodas izjūta dažādiem valodas lietotājiem par to atšķiras. Par šo punktu var diskutēt, ja nav zināms, izmantot neitrālāko dzimti - vīriešu dzimti, u.c. risinājumi; 2) locījums - teorētiski nosakāms no sintaktiskās funkcijas, ja pieņem, kādam locījumam parasti jābūt šajā funkcijā - Bruno iet - nominatīvs. Bet vienmēr būs neskaidrie gadījumi "Vēstuli sūta Bruno" - vai Bruno ir sūtītājs ar locījumu nominatīvā, vai Bruno ir adresāts datīvā? 3) skaitlis - arī cilvēku interpretācija no teksta, vai runa ir par vienu Bruno, situācijas apzināšanās, ka parasti nebūs runa par vairākiem. Kontekstā esošās verba trešās personas formas neļauj nošķirt skaitli, tikai tad, ja parādās kāds lokāms vārds apzīmētāja funkcijā vai divdabis, kuri norāda skaitli un dzimti - "Bruno ir apjucis". Kopumā šeit saduras divas lietas - no vienas puses, morfoloģiskas kategorijas no formveidošanas aspekta parasti tiek definētas kā piemītošas, ja ir kaut vai divas formas paradigmā. Nelokāmiem vārdiem tādas nav. No otras puses, šo gramatisko kategoriju nozīmes var noprast no konteksta daudzos gadījumos. Uzskatu diskusiju par atvērtu, pārrunāsim ar kolēģiem šos dažādos aspektus, kā arī labprāt uzklausītu ierosinājumus, kā , jūsuprāt, būtu jābūt gadījumos, kad šīs kategorijas nevar no konteksta noteikt. Manuāli marķētā korpusā tagus var izlabot, savukārt automātiski marķētais korpuss tāpat varētu būt neprecīzs.
Sveiki, Es ievēroju, ka šiem personvārdiem nav norādītas morfoloģiskās pazīmes.
Pieļauju, ka tā ir kļūda, jo vārdu nelokāmība ir tik vien kā formu sinkrētisma gadījums (vismaz šajos gadījumos), līdz ar to, morfoloģiskās pazīmes būtu jāpiešķir atkarībā no teikuma konteksta. Laimīgi, Toms Bergmanis PhD Candidate at University of Edinburgh http://homepages.inf.ed.ac.uk/s1044253