apertium / apertium-tat

Apertium linguistic data for Tatar
GNU General Public License v3.0
4 stars 3 forks source link

"алд" instead of "ал" #19

Open mansayk opened 5 years ago

mansayk commented 5 years ago

^алдыннан/алд<n><sg><px3sp><abl>$

jonorthwash commented 5 years ago

This isn't necessarily wrong. A lemma can be anything, and here we chose the morphological root instead of the citation form. @IlnarSelimcan, what do you think makes the most sense?

jonorthwash commented 5 years ago

Btw, @mansayk, the invalid label means that an issue isn't valid and that we shouldn't pay attention to it. I think the label you're after is just bug.

mansayk commented 5 years ago

O, thank you, I didn't know that about "invalid" label.

mansayk commented 5 years ago

About lemma, the basic form of that word is "ал" - that is a normal word with the meaning "front side" and we cannot lemmatize that word as "алд", right? I think lemma "ал" is a better choice here.

jonorthwash commented 5 years ago

I think lemma "ал" is a better choice here.

@IlnarSelimcan, what do you think? I'm happy either way, and it's trivial to change, but I want to make sure there wasn't a reason it's алд. Possibilities that come to mind are for translation: that as алд there's no possibility of confusion with the adjective(?), verb, and auxiliary ал.

mansayk commented 5 years ago

Closed https://github.com/apertium/apertium-tat/commit/4395924f38242b856e7ad15399005930aaca7c50

IlnarSelimcan commented 5 years ago

Historically, these three have been "алд", "аст", "өст", but seem to shift more and more towards variants without д/т in all forms, at least in speech.

In forms without possessives (аска, өскә, алга, алны, алдан...), or in plural (алларына, өсләренә, асларыннан) д/т won't surface. Based on that, "ас", "өс" and "ал" seem to be more appropriate for the lemma, but I'm not sure whether we have listed all arguments pro and contra here.

Here are some excerpts from suzlek.antat.ru

Тэтимол 2015 АЛ III, иск., кит. алд «перед, передняя часть; передний» < гом. төрки алд, алт «ал, ас» бор. гом. төрки «аяк асты» тамырыннан (ал > аст мәгъ. күчеше барган тарафың, юлың аяк астында калуы белән аңлатыла: ал тамыры фин-угор *ul «ас» тамыры белән чагыштырыла. Гомумән, бу сүзләрнең этимологиясе бик юраулы. Алд, аст, өст, арт сүзләрнең уртак элементы -д/-т да бит төрлечә карала (к. ЭСТЯ I: 140–141). Элекке (гарәп шрифтындагы) язылышта гадәттә алт сүзенең -т өлеше төшерелеп калдырылмаган һәм бу дөрес тә кебек (алд як һ.б. дип язылган), һәрхәлдә гомуми системага муафикъ. Ал продуктив нигез: алгы, алдын һ.б. К. Алын.

Тэтимол 2015 ӨС I– по существу неправильное написание слова өст «верх; верхняя одежда» < гом. төрки һәм бор. төрки üst. Ф. Исхаков фикеренчә (к. Ал, Арт, Ас ), < үстү < үснү < үсүн-ү үсешендә бор. үсүн ~ хак., тув. үзүн «өске як, үсү ягы (?)» сүзеннән килеп чыккан, бу үсүн ~ үзүн исә үс- ~ *үз- «каплау» фигыленнән (чаг. Өсәк ) ясала ала, к. Будагов I: 135–136; ЭСТЯ I: 638–639. Элек (гарәп шрифтында) өст-баш, өсткә, өстке дип язганнар һәм дөрес эшләгәннәр. Латинчага һәм кириллицага күчкәч өs, өс дип кенә язу орфографиянең фәнни нигезләреннән чигенү (имеш, «халыкча») булган. Чаг. – рус орфографиясендә авазларның әйтелмәгәннәрен язу бик күп: ләкин бу хәлне «төзәтергә» өндәүчеләр юк. Дерив.: өсле, өссез, парлы сүзләрдә: өсте-башы (өсе түгел?), өсте-асты һ.б. К. Өстәр, Өстә-ү, Өстен.

mansayk commented 5 years ago

+1 for "ал, ас, өс", because they are orthographically correct and understandable for everyone.

jonorthwash commented 5 years ago

I think it makes sense to have ал, ас, and өс as the lemmas (as long as there aren't other nouns these would become ambiguous with), since they are orthographically correct on their own and are dictionary headwords. Also, this is in line with how we treat дус.

For the record, the argument that the /d/ and /t/ don't surface when the forms are on their own (but do before a vowel) could be used for either position: since they are there underlyingly (from a generativist standpoint), the forms with them could make more sense as the lemmas.