UniversalDependencies / UD_Latvian-LVTB

Creative Commons Attribution Share Alike 4.0 International
2 stars 2 forks source link

Kļūda personvārdu morfoloģiskajās pazīmēs #10

Open tomsbergmanis opened 5 years ago

tomsbergmanis commented 5 years ago

Sveiki, Es ievēroju, ka šiem personvārdiem nav norādītas morfoloģiskās pazīmes.

32  Teo Teo PROPN   np0000  _   39  nsubj   39:nsubj    LvtbNodeId=a-d130-p50s8w32
1   Mihaels Mihaels PROPN   np0000  _   3   nsubj   3:nsubj LvtbNodeId=a-d137-p1675s3w1
1   BRUNO   Bruno   PROPN   np0000  _   0   root    0:root  LvtbNodeId=a-d140-p369s1w1|SpaceAfter=No
3   Teo Teo PROPN   np0000  _   2   iobj    2:iobj  LvtbNodeId=a-d59-p175s1w3
5   Teo Teo PROPN   np0000  _   4   iobj    4:iobj  LvtbNodeId=a-d59-p175s3w5|SpaceAfter=No
7   Teo Teo PROPN   np0000  _   8   iobj    8:iobj  LvtbNodeId=a-d59-p175s4w7
4   Oto Oto PROPN   np0000  _   5   nsubj   5:nsubj LvtbNodeId=a-d93-p105s3w4
1   Gvido   Gvido   PROPN   np0000  _   3   nsubj   3:nsubj LvtbNodeId=a-p10182-p2s4w1
5   Romeo   Romeo   PROPN   np0000  _   2   obj 2:obj   LvtbNodeId=a-p16937-p7s1w5
5   Romeo   Romeo   PROPN   np0000  _   9   nsubj   9:nsubj LvtbNodeId=a-p16937-p7s3w5
33  Anrī    Anrī    PROPN   np0000  _   30  appos   30:appos    LvtbNodeId=a-p2273-p3s1w33
6   Metjū   Metjū   PROPN   np0000  _   5   flat:name   5:flat:name LvtbNodeId=a-p3392-p7s5w6
10  Mario   Mario   PROPN   np0000  _   12  nmod    12:nmod:gen LvtbNodeId=a-p3748-p2s2w10
4   Roberto Roberto PROPN   np0000  _   8   obl 8:obl:gen   LvtbNodeId=a-p5356-p7s1w4
9   Dino    Dino    PROPN   np0000  _   7   nsubj   7:nsubj LvtbNodeId=a-p6074-p3s1w9
5   Leonardo    Leonardo    PROPN   np0000  _   9   nmod    9:nmod:gen  LvtbNodeId=a-p6106-p1s1w5
6   Ivo Ivo PROPN   np0000  _   8   nsubj   8:nsubj LvtbNodeId=a-p6938-p4s1w6
9   Vito    Vito    PROPN   np0000  _   7   iobj    7:iobj  LvtbNodeId=a-p7818-p3s1w9|SpaceAfter=No
29  Romeo   Romeo   PROPN   np0000  _   32  nmod    32:nmod LvtbNodeId=a-p9221-p2s1w29

Pieļauju, ka tā ir kļūda, jo vārdu nelokāmība ir tik vien kā formu sinkrētisma gadījums (vismaz šajos gadījumos), līdz ar to, morfoloģiskās pazīmes būtu jāpiešķir atkarībā no teikuma konteksta. Laimīgi, Toms Bergmanis  PhD Candidate at University of Edinburgh http://homepages.inf.ed.ac.uk/s1044253

lauma commented 4 years ago

Mihaels noteikti ir kļūda, pārējais, manuprāt, tiek tā sistemātiski marķēts, bet par dziļāku loģiku tad tur būtu lingvistiem jākomentē.

tomsbergmanis commented 4 years ago

Sistemātiski vai nē, bet vārdiem teikumos ir gramaitska funkcija, līdz ar to ir piemērojamas morfoloģiskas pazīmes. Ņemot vērā, ka tālāk šo datu kopu izmanto atkarību koku zīmēšanai, morfoloģiskās pazīmes ir nepieciešamas.

lrituma commented 4 years ago

Latviešu valodas korpusā nelokāmiem lietvārdiem netiek piešķirta dzimte, skaitlis un locījums tāpēc, ka tos ne vienmēr var precīzi noteikt. 1) dzimte - ja lietvārdam ir skaidri zināma dzimte, ko mēs spreidīsim pēc gramatiskās norādes autoritatīvajā vārdnīcu resursā tezaurs.lv , tad arī vārdam tiks marķēta dzimte. Pārējos gadījumos mēs nevaram zināt, vai personvārds apzīmē sievieti vai vīrieti tekstos ar ārzemju personvārdiem , piemēram, "Lī" . Bet ne visiem nelokāmiem lietvārdiem ir iespējams dzimti noteikt, valodas izjūta dažādiem valodas lietotājiem par to atšķiras. Par šo punktu var diskutēt, ja nav zināms, izmantot neitrālāko dzimti - vīriešu dzimti, u.c. risinājumi; 2) locījums - teorētiski nosakāms no sintaktiskās funkcijas, ja pieņem, kādam locījumam parasti jābūt šajā funkcijā - Bruno iet - nominatīvs. Bet vienmēr būs neskaidrie gadījumi "Vēstuli sūta Bruno" - vai Bruno ir sūtītājs ar locījumu nominatīvā, vai Bruno ir adresāts datīvā? 3) skaitlis - arī cilvēku interpretācija no teksta, vai runa ir par vienu Bruno, situācijas apzināšanās, ka parasti nebūs runa par vairākiem. Kontekstā esošās verba trešās personas formas neļauj nošķirt skaitli, tikai tad, ja parādās kāds lokāms vārds apzīmētāja funkcijā vai divdabis, kuri norāda skaitli un dzimti - "Bruno ir apjucis". Kopumā šeit saduras divas lietas - no vienas puses, morfoloģiskas kategorijas no formveidošanas aspekta parasti tiek definētas kā piemītošas, ja ir kaut vai divas formas paradigmā. Nelokāmiem vārdiem tādas nav. No otras puses, šo gramatisko kategoriju nozīmes var noprast no konteksta daudzos gadījumos. Uzskatu diskusiju par atvērtu, pārrunāsim ar kolēģiem šos dažādos aspektus, kā arī labprāt uzklausītu ierosinājumus, kā , jūsuprāt, būtu jābūt gadījumos, kad šīs kategorijas nevar no konteksta noteikt. Manuāli marķētā korpusā tagus var izlabot, savukārt automātiski marķētais korpuss tāpat varētu būt neprecīzs.