apertium / apertium-tat

Apertium linguistic data for Tatar
GNU General Public License v3.0
4 stars 3 forks source link

The form ноябрендә doesn't work. #8

Closed ftyers closed 5 years ago

ftyers commented 6 years ago

Probably an issue in twol:

$ echo "ноябрь<n><px3sp><loc>" | hfst-lookup .deps/tat.LR.lexc.hfst 
ноябрь<n><px3sp><loc>   ноябрь>{s}{I}{n}>{D}{A} 0,000000
ноябрь<n><px3sp><loc>   ноябрь{ъ}>{s}{I}{n}>{D}{A}  0,000000

$ echo "ноябрь<n><px3sp><loc>" | hfst-lookup .deps/tat.LR.hfst 
ноябрь<n><px3sp><loc>   ноябрында   0,000000
ноябрь<n><px3sp><loc>   ноябрьында  0,000000
jonorthwash commented 6 years ago

@IlnarSelimcan, does ноябрь take front-vowel endings because it has я or because it has ь or because it has яСь? Could you think of some other nouns that match each of these patterns so that I can understand what the pattern is so that I can fix it?

mansayk commented 6 years ago

Hi!

According to Tatar orthographic dictionary (2017):

bash-4.4$ grep "рь" file.txt алтарь, -е(на) аптекарь, -е(на) архипастырь, -е(на) бәгырь, -е библиотекарь, -е(на) бунтарь, -е(на) вәкарь, -е гарь, -е герой-шагыйрь, -е глазурь, -е(на) декабрь, -е егерь, -е инвентарь, -е(на) календарь, -е(на) киноварь, -е(на) козырь, -е(на) концлагерь, -е(на) кустарь, -е(на) лагерь, -е(на) лазурь, -е(на) лейкопластырь, -е(на) лопарь, -е(на) монастырь, -е(на) нашатырь, -е(на) ноябрь, -е октябрь, -е панцирь, -е(на) писарь, -е(на) пластырь, -е(на) пономарь, -е(на) пресс-секретарь, -е(на) псалтырь, -е(на) рыцарь, -е(на) секретарь, -е(на) сентябрь, -е слесарь, -е(на) статс-секретарь, -е(на) табель-календарь, -е(на) технарь, -е(на) токарь, -е(на) фельдъегерь, -е фонарь, -е(на) шагыйрь, -е шигырь, -е шпандырь, -е(на) штырь, -е(на) якорь, -е(на) январь, -е(на)

bash-4.4$ grep -E "я.ь," file.txt аять, -е вазгыять, -е васыять, -е вилаять, -е җәмгыять, -е җинаять, -е кан-яшь, -е князь, -е муаффәкыять, -е наркоҗинаять, -е риваять, -е ригаять, -е рояль, -е табигыять, -е шикаять, -е ямь, -е япь, ябе яшь, -е II-III (ис.)

With best wishes, Mansur

Am Do., 27. Sep. 2018 um 23:47 Uhr schrieb Jonathan Washington < notifications@github.com>:

@IlnarSelimcan https://github.com/IlnarSelimcan, does ноябрь take front-vowel endings because it has я or because it has ь or because it has яСь? Could you think of some other nouns that match each of these patterns so that I can understand what the pattern is so that I can fix it?

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/apertium/apertium-tat/issues/8#issuecomment-425237290, or mute the thread https://github.com/notifications/unsubscribe-auth/ATLcQQCEaJCv6dQL4GTIVsggPQytbK8Oks5ufTltgaJpZM4VPzLT .

jonorthwash commented 6 years ago

Thanks, @mansayk! Could you clarify the following points?

  1. I assume that e.g. "бәгырь, -е" means that the possessive form is "бәгыре" and the plural would be "бәгырләр", right?

  2. What do the forms with "(на)" mean? E.g., "алтарь, -е(на)"

  3. Most words with just яС (no ь) at the end of the word would just take -ы, right? (Unless a front vowel precedes the я? Here I'm thinking about words that end in like ..өят or similar.)

mansayk commented 6 years ago
  1. This is correct ones: бәгырь, бәгыре, бәгырьләр. We keep "ь" when affix begins with consonant.
  2. (на) in this dictionary means that this noun accepts affixes with back vowels: алтарь, алтаре, алтарена, алтареның.
  3. Yes, you are right (but there are few exceptions "әдәбият", "нәшрият". "әдәбияты" is correct):

bash-4.4$ grep "ят," file.txt әбелхәят, -е әдәбият, -ы әкият, -е әттәхият, -е әһәмият, -е бөят, -е бурят, -ы гамәлият, -е гарәбият, -е дистиллят, -ы җөмһүрият, -е зарурият, -е зәкят, -ы илаһият, -е инсаният, -е исламият, -е кабилият, -е кануният, -е кәйфият, -е коагулят, -ы коррелят, -ы мәгънәвият, -е мәдәният, -е мәҗбүрият, -е мәҗүсият, -е мәсгудият, -е мәсьүлият, -е мәхрүмият, -е мәшгулият, -е миллият, -е мөфтият, -е назарият, -е нәшрият, -ы ният, -е октябрят, -ы оят, -ы рухият, -е самимият, -е тәрәккыят, -е хакимият, -е хасият, -е хәйрият, -е хәят, -е хикәят, -е хиссият, -е хосусият, -е хөррият, -е шәхсият, -е шигърият, -е

Am Fr., 28. Sep. 2018 um 21:35 Uhr schrieb Jonathan Washington < notifications@github.com>:

Thanks, @mansayk https://github.com/mansayk! Could you clarify the following points?

1.

I assume that e.g. "бәгырь, -е" means that the possessive form is "бәгыре" and the plural would be "бәгырләр", right? 2.

What do the forms with "(на)" mean? E.g., "алтарь, -е(на)" 3.

Most words with just яС (no ь) at the end of the word would just take -ы, right? (Unless a front vowel precedes the я? Here I'm thinking about words that end in like ..өят or similar.)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/apertium/apertium-tat/issues/8#issuecomment-425527922, or mute the thread https://github.com/notifications/unsubscribe-auth/ATLcQbIpNZbgg8_qohH5-smr0bTl7hkJks5ufmvxgaJpZM4VPzLT .

mansayk commented 6 years ago

Also pay attention to

тәрәккыят, -е

in the list.

Am Fr., 28. Sep. 2018 um 22:03 Uhr schrieb mansur 6688000@gmail.com:

  1. This is correct ones: бәгырь, бәгыре, бәгырьләр. We keep "ь" when affix begins with consonant.
  2. (на) in this dictionary means that this noun accepts affixes with back vowels: алтарь, алтаре, алтарена, алтареның.
  3. Yes, you are right (but there are few exceptions "әдәбият", "нәшрият". "әдәбияты" is correct):

bash-4.4$ grep "ят," file.txt әбелхәят, -е әдәбият, -ы әкият, -е әттәхият, -е әһәмият, -е бөят, -е бурят, -ы гамәлият, -е гарәбият, -е дистиллят, -ы җөмһүрият, -е зарурият, -е зәкят, -ы илаһият, -е инсаният, -е исламият, -е кабилият, -е кануният, -е кәйфият, -е коагулят, -ы коррелят, -ы мәгънәвият, -е мәдәният, -е мәҗбүрият, -е мәҗүсият, -е мәсгудият, -е мәсьүлият, -е мәхрүмият, -е мәшгулият, -е миллият, -е мөфтият, -е назарият, -е нәшрият, -ы ният, -е октябрят, -ы оят, -ы рухият, -е самимият, -е тәрәккыят, -е хакимият, -е хасият, -е хәйрият, -е хәят, -е хикәят, -е хиссият, -е хосусият, -е хөррият, -е шәхсият, -е шигърият, -е

Am Fr., 28. Sep. 2018 um 21:35 Uhr schrieb Jonathan Washington < notifications@github.com>:

Thanks, @mansayk https://github.com/mansayk! Could you clarify the following points?

1.

I assume that e.g. "бәгырь, -е" means that the possessive form is "бәгыре" and the plural would be "бәгырләр", right? 2.

What do the forms with "(на)" mean? E.g., "алтарь, -е(на)" 3.

Most words with just яС (no ь) at the end of the word would just take -ы, right? (Unless a front vowel precedes the я? Here I'm thinking about words that end in like ..өят or similar.)

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/apertium/apertium-tat/issues/8#issuecomment-425527922, or mute the thread https://github.com/notifications/unsubscribe-auth/ATLcQbIpNZbgg8_qohH5-smr0bTl7hkJks5ufmvxgaJpZM4VPzLT .

mansayk commented 5 years ago

I fixed all of these