apertium / apertium-sah

Apertium linguistic data for Sakha
GNU General Public License v3.0
5 stars 3 forks source link

%{ъ%} not working #15

Closed varie closed 3 years ago

ftyers commented 6 years ago

Check out these forms:

$ sh hitparade.sh | grep спортсмен
     ^36/36<num>$ ^спортсмен/спортсмен<n><nom>/спортсмен<n><attr>$
     ^19/19<num>$ ^спортсменнар/*спортсменнар$
      ^9/9<num>$ ^спортсменнары/*спортсменнары$
      ^9/9<num>$ ^спортсмена/*спортсмена$
      ^7/7<num>$ ^спортсменнарын/*спортсменнарын$
      ^3/3<num>$ ^спортсменнара/*спортсменнара$
      ^3/3<num>$ ^Спортсмен/спортсмен<n><nom>/спортсмен<n><attr>$
      ^2/2<num>$ ^спортсменын/*спортсменын$
      ^2/2<num>$ ^спортсменнарынан/*спортсменнарынан$
      ^2/2<num>$ ^спортсменнарга/*спортсменнарга$

It looks like {ъ} is not working:

$ echo "с п о р т с м е н {ъ}:0 >:0 {L}:н {A}:а р" | hfst-pair-test .deps/sah.twol.hfst 
Rule "vowel harmony for {A} except after уо and үө  fails:
#:0 с п о р т с м е н {ъ}:0 >:0 {L}:н HERE ---> {A}:а р #:0 

FAIL: с п о р т с м е н {ъ}:0 >:0 {L}:н {A}:а р REJECTED

Test failed.
jonorthwash commented 6 years ago

I put спортсмен in N5 (https://github.com/apertium/apertium-sah/commit/6232bc1266bcd423bdffa96154af80248fe59cd3) and it seems happy. I don't think anyone ever implemented {ъ}.

We do need to check on the behaviour of Russian nouns though. @varie, could you provide a few forms of the following nouns: музей, гражданин, туризм, инженер, режиссер, правительство. I think the following forms would be enough: <nom><pl>, <nom><acc>, <nom><com>, <nom><comp>.

varie commented 6 years ago

музей<nom><pl> : музейдар музей<nom><acc> : музейы музей<nom><com> : музейдыын музей<nom><comp> : музейдааҕар

гражданин<nom><pl> : гражданиннар гражданин<nom><acc> : гражданины гражданин<nom><com> : гражданинныын гражданин<nom><comp> : гражданиннааҕар

туризм<nom><pl> : туризмнар туризм<nom><acc> : туризмы туризм<nom><com> : туризмныын туризм<nom><comp> : туризымнааҕар

инженер<nom><pl> : инженердар инженер<nom><acc> : инженеры инженер<nom><com> : инженердыын инженер<nom><comp> : инженердааҕар

режиссер<nom><pl> : режиссердар режиссер<nom><acc> : режиссеры режиссер<nom><com> : режиссердыын режиссер<nom><comp> : режиссердааҕар

правительство<nom><pl> : правительстволар правительство<nom><acc> : правительствоны правительство<nom><com> : правительстволыын правительство<nom><comp> : правительстволааҕар

jonorthwash commented 6 years ago

Thanks, @varie!

After putting these in a yaml file and tweaking them some, only two forms are failing (!):

[FAIL] туризм<n><comp> => missing results: туризымнааҕар
[FAIL] туризм<n><comp> => unexpected results: туризмнааҕар
[FAIL] правительство<n><comp> => missing results: правительстволааҕар
[FAIL] правительство<n><comp> => unexpected results: правительствотааҕар

Are the forms you provided correct?

varie commented 6 years ago

Are the forms you provided correct?

[FAIL] туризм => missing results: туризымнааҕар [FAIL] туризм => unexpected results: туризмнааҕар

whops, I think туризмнааҕар is a right form :).

[FAIL] правительство => missing results: правительстволааҕар [FAIL] правительство => unexpected results: правительствотааҕар

and here.. strangely they both sound fine for me, but maybe правительствотааҕар is the right one :). Query to google search gives approximately 24 results for правительствотааҕар and 0 for правительстволааҕар.

jonorthwash commented 3 years ago

I think we can probably close this issue. Feel free to reopen if something was missed.