Closed snomos closed 3 years ago
It looks like some how or other the file lang-sme/src/transcriptions/transcriptor-numbers-digit2text.lexc
has the ordering TEXT : DIGIT, something we fixed in the AKU projects about 4 years ago.
LEXICON ONESG miljárda:1 OVERMILLIONS ; guokte:2 GIGA ; golbma:3 GIGA ; njeallje:4 GIGA ; vihtta:5 GIGA ; guhtta:6 GIGA ; čieža:7 GIGA ; gávcci:8 GIGA ; ovcci:9 GIGA ;
THIS also looks one-sided: LEXICON SMALLDATEDAYMARK :@U.DATE.1@1 DATEMONTHSEPARATOR ; :@U.DATE.2@2 DATEMONTHSEPARATOR ; :@U.DATE.3@3 DATEMONTHSEPARATOR ; :@U.DATE.4@4 DATEMONTHSEPARATOR ; :@U.DATE.5@5 DATEMONTHSEPARATOR ; :@U.DATE.6@6 DATEMONTHSEPARATOR ; :@U.DATE.7@7 DATEMONTHSEPARATOR ; :@U.DATE.8@8 DATEMONTHSEPARATOR ; :@U.DATE.9@9 DATEMONTHSEPARATOR ;
Jaska
On Mon, Mar 8, 2021 at 12:21 PM Sjur Moshagen notifications@github.com wrote:
echo 33 | hfst-lookup -q src/transcriptions/transcriptor-numbers-digit2text.filtered.lookup.hfstol
33 33+?
echo 33 | hfst-lookup -q src/transcriptions/transcriptor-numbers-text2digit.filtered.lookup.hfstol
33 golbmalogigolbma
Altså: text2digit oppfører seg som digit2text, og omvendt. Dette gjer at tekstnormalisering/ekspandering i tekst-til-taleprosesseringa ikkje fungerer.
Eg set både Lene og Thomas på denne, og kanskje @carges https://github.com/carges òg må sjå på saka pga den bruken desse filene har i Oahpa. @Trondtr https://github.com/Trondtr har du sysnpunkt? Du var med og laga desse filene.
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/giellalt/lang-sme/issues/15, or unsubscribe https://github.com/notifications/unsubscribe-auth/ADM5MRCTKHYEZQQ44JVI5M3TCSQK5ANCNFSM4YZD7XGQ .
Denne hastar. @Trondtr kan du sjå på dette?
Kva er det som gjer at dette hastar no? Vi vil at språka skal vere konsistent, men dei er det ikkje, og det står på todo-lista å gjer dei det.
aha, ok, pga tekst-til-tale. Eg har førelesing til 1500 men skal sjå på dette etterpå. Er det travlare må nokon annan gjere det.
Denne er fiksa for SME. Eg stengjer.
Altså:
text2digit
oppfører seg somdigit2text
, og omvendt. Dette gjer at tekstnormalisering/ekspandering i tekst-til-taleprosesseringa ikkje fungerer.Eg set både Lene og Thomas på denne, og kanskje @carges òg må sjå på saka pga den bruken desse filene har i Oahpa. @Trondtr har du sysnpunkt? Du var med og laga desse filene.