giellalt / lang-smj

Finite state and Constraint Grammar based analysers and proofing tools + language resources for Lule Sámi
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 0 forks source link

Smi-propernouns med n9, etc., i missinglista ( #100

Closed albbas closed 9 years ago

albbas commented 9 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1988

Date: 2015-02-18T16:29:51+01:00 From: Sandra Nystø Rahka <> To: Sjur Nørstebø Moshagen <> CC: lene.antonsen, maja.l.kappfjell, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2015-02-19T13:32:57+01:00

albbas commented 9 years ago

Comment 10198

Date: 2015-02-18 16:29:51 +0100 From: Sandra Nystø Rahka <>

Først, beklager hvis det har vært en bug på dette tidligere (mener å huske at noe lignende har vært tatt opp, men fant det ikke). Saken er i allefall at jeg får en del slike navn i missinglisten:

Foråstadsætra+OLang/NOB:Forå^stad^sæ9tra ACCRA-plc ; Friijacampen+OLang/UND:Friija^campen9 LONDON-org ; Fræna+OLang/NOB:Fræ9na ACCRA-plc ; Kaijansinkko+OLang/UND:Kaijansinkko9 ACCRA-sur ; Katajainen+OLang/UND:Katajainen9 LONDON-sur ; Keijonen+OLang/UND:Keijonen9 LONDON-sur ;

Jeg er ikke så kjent med twolc, men skjønner at 9-tallet er ment til å gjøre noe nyttig. Men eksakt hva regulerer den? For det er nok det som skaper trøbbel for smj. Slik var det f.els også med Noereh:Noereh9 LONDON-LOAN-org ; i smj-propernouns.lexc. Fjerna niern og nå funker det som det skal.

Kan det være dette som gjør at ordene ikke genereres og hva kan vi i så fall gjøre for å løse det?

albbas commented 9 years ago

Comment 10199

Date: 2015-02-18 17:00:41 +0100 From: Lene Antonsen <>

Årsaken til problemet er ikke 9-tallet men skriptet som tilpasser smi-propernouns til smj, src/scripts/smi-smj-conversion.pl se resultatet i denne fila: src/morphology/generated_files/smi-smj-propernouns.lexc

Keijonen+OLang/UND:Keiionen LONDON-sur ;

smj$ $LOOKUP src/generator-gt-norm.xfst Keijonen+N+Prop+Sg+Nom Keijonen+N+Prop+Sg+Nom Keiionen

albbas commented 9 years ago

Comment 10200

Date: 2015-02-18 17:04:33 +0100 From: Lene Antonsen <>

Kjør denne kommandoen etter at du har kjørt make check for å debugge:

cat test/src/morphology/missingProperLemmas.xfst.txt | sed 's/$/+N+Prop+Sg+Nom/' |dsmjNorm |l

albbas commented 9 years ago

Comment 10201

Date: 2015-02-18 17:24:04 +0100 From: Lene Antonsen <>

stems$ svn ci -m "Endra to æ9 til æ, kan ikke se at det virker inn negativt for sma, sma og smj." smi-propernouns.lexc Sending smi-propernouns.lexc Transmitting file data . Committed revision 107715.

albbas commented 9 years ago

Comment 10204

Date: 2015-02-19 13:32:57 +0100 From: Sandra Nystø Rahka <>

Lene og jeg har sett på dette og vi har gjort noen endringer i smi->smj scriptet slik at de overnevnte feil ikke forekommer. Har også utkommentert regler som endrer nordsamiske bokstaver til lulesamiske konsonantkombinasjoner, som č -> tj. Vi vil ikke ha en slik tilpasning når det er snakk om egennavn. Sančuari, f.eks, bør forbli Sančuari på smj også, og ikke bli endret til Santjuari. Enkelte nordsamiske navn er derimot assimilerte til lulesamisk, men de finnes i smj-propernouns.lexc. F.eks Kárásjjåhkå.

Utover det er omtrent alle navn i smi-propernouns.lexc med fremmede bokstaver utenlandske navn som Sluč. Da blir det feil å konvertere dette til Slutj i smj.