giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

transcriptor er feil veg #15

Closed snomos closed 3 years ago

snomos commented 3 years ago
echo 33 | hfst-lookup -q src/transcriptions/transcriptor-numbers-digit2text.filtered.lookup.hfstol 
33  33+?

echo 33 | hfst-lookup -q src/transcriptions/transcriptor-numbers-text2digit.filtered.lookup.hfstol 
33  golbmalogigolbma

Altså: text2digit oppfører seg som digit2text, og omvendt. Dette gjer at tekstnormalisering/ekspandering i tekst-til-taleprosesseringa ikkje fungerer.

Eg set både Lene og Thomas på denne, og kanskje @carges òg må sjå på saka pga den bruken desse filene har i Oahpa. @Trondtr har du sysnpunkt? Du var med og laga desse filene.

rueter commented 3 years ago

It looks like some how or other the file lang-sme/src/transcriptions/transcriptor-numbers-digit2text.lexc

has the ordering TEXT : DIGIT, something we fixed in the AKU projects about 4 years ago.

LEXICON ONESG miljárda:1 OVERMILLIONS ; guokte:2 GIGA ; golbma:3 GIGA ; njeallje:4 GIGA ; vihtta:5 GIGA ; guhtta:6 GIGA ; čieža:7 GIGA ; gávcci:8 GIGA ; ovcci:9 GIGA ;

THIS also looks one-sided: LEXICON SMALLDATEDAYMARK :@U.DATE.1@1 DATEMONTHSEPARATOR ; :@U.DATE.2@2 DATEMONTHSEPARATOR ; :@U.DATE.3@3 DATEMONTHSEPARATOR ; :@U.DATE.4@4 DATEMONTHSEPARATOR ; :@U.DATE.5@5 DATEMONTHSEPARATOR ; :@U.DATE.6@6 DATEMONTHSEPARATOR ; :@U.DATE.7@7 DATEMONTHSEPARATOR ; :@U.DATE.8@8 DATEMONTHSEPARATOR ; :@U.DATE.9@9 DATEMONTHSEPARATOR ;

Jaska

On Mon, Mar 8, 2021 at 12:21 PM Sjur Moshagen notifications@github.com wrote:

echo 33 | hfst-lookup -q src/transcriptions/transcriptor-numbers-digit2text.filtered.lookup.hfstol

33 33+?

echo 33 | hfst-lookup -q src/transcriptions/transcriptor-numbers-text2digit.filtered.lookup.hfstol

33 golbmalogigolbma

Altså: text2digit oppfører seg som digit2text, og omvendt. Dette gjer at tekstnormalisering/ekspandering i tekst-til-taleprosesseringa ikkje fungerer.

Eg set både Lene og Thomas på denne, og kanskje @carges https://github.com/carges òg må sjå på saka pga den bruken desse filene har i Oahpa. @Trondtr https://github.com/Trondtr har du sysnpunkt? Du var med og laga desse filene.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/giellalt/lang-sme/issues/15, or unsubscribe https://github.com/notifications/unsubscribe-auth/ADM5MRCTKHYEZQQ44JVI5M3TCSQK5ANCNFSM4YZD7XGQ .

snomos commented 3 years ago

Denne hastar. @Trondtr kan du sjå på dette?

Trondtr commented 3 years ago

Kva er det som gjer at dette hastar no? Vi vil at språka skal vere konsistent, men dei er det ikkje, og det står på todo-lista å gjer dei det.

Trondtr commented 3 years ago

aha, ok, pga tekst-til-tale. Eg har førelesing til 1500 men skal sjå på dette etterpå. Er det travlare må nokon annan gjere det.

snomos commented 3 years ago

Denne er fiksa for SME. Eg stengjer.