Open ilm024 opened 2 months ago
Fyrste del av telefonnummeret blir rett og slett ikkje kjent igjen av analysatoren, slik at det er stavekontrollen som blir brukt til å generera "retteforslag, jf <spelled>
.
teknisk er det ganske enkelt å laga lexicon eller regulære uttrykk av telefonnummerformata, største problem har vart jo at i shared det blir problematisk for en eller annet bruk, til eksempel, det finnes allerede ukommentert telefonnummerleksikon i shared-smi: https://github.com/giellalt/shared-smi/blob/main/src/fst/stems/arabic_roman_digits.lexc#L354-L368, (den er for gammelt for att æ kunne finne ut kem som har utkomentert den men kanskje det er noen som vet bakgrunn til det her?)
teknisk er det ganske enkelt å laga lexicon eller regulære uttrykk av telefonnummerformata, største problem har vart jo at i shared det blir problematisk for en eller annet bruk
Det er berre å ignorera utkommenterte, gamle ting. Vi treng ein felles telefonnummerparsar, så om du kan leggja til ein i shared-mul
hadde det vore kjempefint.
Og så må telefonnumra sjølvsagt taggast slik at det er lett å disambiguera dei, eller heilt fjerna dei frå fst-en.
den er i shared-mul og lang-smj nå:
$ echo tel. 073-786 58 10 | hfst-tokenise -g tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
"<tel.>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Attr <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Attr <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Acc <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Acc <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Gen <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Gen <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Nom <W:0.0> "<tel>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Nom <W:0.0>
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Nom <W:0.0> "<tel>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Sg Gen <W:0.0> "<tel>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Pl Nom <W:0.0> "<tel>"
"." CLB <W:0.0> "<.>"
"tel" N Sem/Obj-el ABBR Gram/TNumAbbr Attr <W:0.0> "<tel>"
:
"<073-786 58 10>"
"073-786 58 10" Num Arab TEL <W:0.0>
:\n
Vi mangler en telefonr-analusator for alle språk. Enten i shared-smi elelr shared-mul.
Nå ser det slik ut i lulesamisk, og der blir svenske telefonnr særlig utfordrende da disse får blir "typos" da de begynner med
0
: