giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

sme.fst godtar ikke sammensetninger Proper + substantiv uten bindestrek ( #231

Closed albbas closed 9 years ago

albbas commented 11 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1428

Date: 2012-09-14T13:28:55+02:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2015-02-13T18:45:27+01:00

albbas commented 11 years ago

Comment 6771

Date: 2012-09-14 13:28:55 +0200 From: Lene Antonsen <>

art$ usme Finnmárkkujuogus Finnmárkkujuogus Finnmárkkujuogus +?

Finnmárku-juogus Finnmárku-juogus Finnmárku+N+Prop+Plc+Cmp-#juogus+Org+N+Sg+Nom Finnmárku-juogus Finnmárku+N+Prop+Plc+Cmp-#juohku+N+Sg+Gen+PxSg3 Finnmárku-juogus Finnmárku+N+Prop+Plc+Cmp-#juohku+N+Sg+Acc+PxSg3 Finnmárku-juogus Finnmárku+N+Prop+Plc+Cmp-#juohku+N+Sg+Loc

Finnmárkku-juogus Finnmárkku-juogus Finnmárku+N+Prop+Plc+Cmp-#juogus+Org+N+Sg+Nom Finnmárkku-juogus Finnmárku+N+Prop+Plc+Cmp-#juohku+N+Sg+Gen+PxSg3 Finnmárkku-juogus Finnmárku+N+Prop+Plc+Cmp-#juohku+N+Sg+Acc+PxSg3 Finnmárkku-juogus Finnmárku+N+Prop+Plc+Cmp-#juohku+N+Sg+Loc

Argumentet for at sme.fst skal godta uten bindestrek, er at det brukes, f.eks. er denne leksikalisert

Finnmárkkuláhka Finnmárkkuláhka Finnmárkoláhka+N+Prop+Obj+Sg+Nom

albbas commented 11 years ago

Comment 6772

Date: 2012-09-14 13:36:24 +0200 From: Lene Antonsen <>

Tillegg:

eksemplet jeg viste til hadde første delen i Gen, men det er samme problem med første delen i Nom:

art$ usme Finnmárkkujuogus Finnmárkkujuogus Finnmárkkujuogus +?

Finnmárkojuogus Finnmárkojuogus Finnmárkojuogus +?

albbas commented 11 years ago

Comment 6777

Date: 2012-09-14 15:14:57 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #0)

Argumentet for at sme.fst skal godta uten bindestrek, er at det brukes, f.eks. er denne leksikalisert

Finnmárkkuláhka Finnmárkkuláhka Finnmárkoláhka+N+Prop+Obj+Sg+Nom

Når slike finst, er det fordi dei då utgjer eit nytt namn - Finnmárkkuláhka er namnet på ei lov. Det vil alltid vera nye namn som dukkar opp, og som vi må leksikalisera.

Problemet med å opna for prop+N utan bindestrek er at vi ikkje opnar for berre prop+N, men for ALLE POS som kan laga samansetjingar + N - plutseleg utan bindestrek, t.d. abbr+N utan bindestrek osb.

Dette skjer fordi alle ord som i utgangspunktet må ha bindestrek etter seg går til Rhyph, og bindestreken blir lagt til der. Så tek du vekk bindestreken der (dvs gjer han valfri) framfor N, så vil vi ha problem med forkortingar og enkeltbokstavar + N som lagar utruleg mykje støy.

Det å endra på R berre for slike ord er dramatisk, og det vil eg helst ikkje gjera. Eg trur den beste løysinga er å leksikalisera alle slike namn som dukkar opp, og elles fanga dei opp i disambiguerarar og andre tilsvarande verkty med å bruka ein gjettar.

albbas commented 11 years ago

Comment 6779

Date: 2012-09-16 10:38:22 +0200 From: Trond Trosterud <>

(In reply to comment #2)

Problemet med å opna for prop+N utan bindestrek er at vi ikkje opnar for berre prop+N, men for ALLE POS som kan laga samansetjingar + N - plutseleg utan bindestrek, t.d. abbr+N utan bindestrek osb. Dette skjer fordi alle ord som i utgangspunktet må ha bindestrek etter seg går til Rhyph, og bindestreken blir lagt til der.

Men det må ikkje vere slik. I dag peiker vi t.d. frå samiske namn til bindestrek:

LEXICON MARJA-SHORTGEN ! Gásakjávrre +Sg+Gen+Allegro+Use/NG: K ; ! +CmpN/SgN+Use/Sub: RHyph ; ! for placenames

i tillegg til å peike frå namn generelt til bindestrek:

LEXICON ACCRA-NE +Sg+Nom: K ; +CmpN/SgN: RHyph ; +Ess:n K ;

På same måte kan vi peike frå samiske namn til substantiv og berre substantiv, og ikkje til alle nomen. Vi unngår dermed både LondonHull, biilaLondon og forkortingar.

Generelt sett har vi gått frå den eine ekstreme til den andre: før: la alt kombinere med alt no: ikkje tillate kombinasjonar (meir generelt: heller "stoppe alt og deretter leksikalisere" enn "stoppe det vi ikkje vil ha og generere det vi vil ha")

Eit oppsett der vi tillet dynamisk danning av Mázeviessu (Prop + subst ), og tilsvarande sikre dynamiske samansetjingsmønster, vil, slik eg ser det, spare oss for i praksis å reservere ei full stilling til leksikaliseringsarbeid, samtidig som vi unngår ulempene med den gamle "opne for alle kombinasjonar" -praksisen.

Så tek du vekk bindestreken der (dvs gjer han valfri) framfor N, så vil vi ha problem med forkortingar og enkeltbokstavar + N som lagar utruleg mykje støy.

Nei, Sjur, viss du tar vekk bindestreken foran ei omdirigering frå Prop (evt. t.o.m. __frå samiske Prop, frå Plc..._) og til__ substantiv og berrre substantiv, vil du ikkje ha det problemet.

Det å endra på R berre for slike ord er dramatisk, og det vil eg helst ikkje gjera.

Spørsmålet er altså kva som er "slike ord".

Eg trur den beste løysinga er å leksikalisera alle slike namn som dukkar opp, og elles fanga dei opp i disambiguerarar og andre tilsvarande verkty med å bruka ein gjettar.

Eg trur framleis det er mogleg å få vasstette genereringar av samansetjingar.

Vi har 20 stadnamn på 2 bokstavar, og 84 stadnamn på 3 bokstavar:

Bo,Mo,Ai,Bu,By,Bø,Ed,Fe,Hå,Ib,Lø,Nå,Ob,On,Os,Ta,Us,Vå,Ås,Øy

Ajo,Boo,Dão,Flo,Iwo,Ngo,Póo,Rio,Roo,Río,São,Áno,Áro,Åbo,Čad,Šua,Abd,Aga,Ala,Alm,Als,Ana,Ata,Ayr,Bay,Bru,Bui,Bui,Chi,Chu,De%,Efa,Egå,Ehi,Elv,Ems,Ena,Eri,Flå,Fyn,Goa,Gol,Hai,Ham,Idd,Ims,Joa,Kwa,Lia,Man,Moa,Nia,Oka,Oki,Old,Oma,Ora,Osj,Raa,Roa,Rue,Rui,Røa,Shu,Ske,Ski,Sri,Sui,Thu,Ufa,Uji,Ula,Ulm,Vea,Via,Xia,Zhu,Ádá,Åby,Åre,Års,Ærø,Øen,Øse

Viss vi ryddar opp i desse og held dei utanfor den bindestrekslause prop + noun -samansetjinga, bør vi kunne få ein generator utan støy for Finnmárkkujogus og andre prop+noun-samansetjingar utan bindestrek.

albbas commented 11 years ago

Comment 6785

Date: 2012-09-16 23:47:01 +0200 From: Lene Antonsen <>

Jeg viser til bug #1208 om problemet med at stedsnavn som "Heasta" danner sammensatte ord, og at man derfor får kunstig ambiguitet. I tilfelle slike sammensetninger gjeninnføres, vil dette problemet bli mindre enn det som er beskrevet i bugen 1208, fordi vi har fjerna # fra lemmaet til leksikaliserte sammensetninger, og dermed vil mange av disse forsvinne i preprosesseringa. Men for å unngå dette helt, og også for å unngå at FSTen blir for stor, kunne man velge å la bare en del av stedsnavnene danne sammensatte ord i sme.fst (smeNorm skal kreve bindestrek, iflg bug #1208).

Alt 1 - navn som er sammenfallende med fellesnavn, skal ikke inngå i dynamiske sammensetninger uten bindestrek, f.eks. Heasta, Vággi....

Alt 2 - bare navn som det er sannsynlig at kan inngå i sammensetninger, får dynamiske sammensetninger uten bindestrek (bygde- og bynavn kan, men ikke naturnavn, f.eks. navn på fjelltopper).

albbas commented 11 years ago

Comment 6788

Date: 2012-09-18 07:29:38 +0200 From: Lene Antonsen <>

Eksempler på produktivegrupper av sammensatte ord som ikke får analyse nå (eksemplene er henta fra sme-dis.rle/korpus): Várjjatsápmelaš, Deanusápmelaš osv. Deanučáhcadat, Várjjatfestivála, Gennesaretjávregáddi osv.

albbas commented 11 years ago

Comment 6862

Date: 2012-09-20 18:03:44 +0200 From: Lene Antonsen <>

En annen produktiv type er Garásávvonguovlu, Markenesguovlu osv. Her finnes det også sammensetninger med fjellnavn, f.eks. Middagsfjellguovlu.

Men når jeg søker i det analyserte korpuset, så ser jeg at dette ikke er et veldig stort problem, det skrives mye med bindestrek også. Og på grunn av de negative sidene, så foreslår jeg at vi begrenser sammensetningene i andre ledd også, f.eks. til guovlu pluss et par andre.

giellatekno:2012-05-28 lene$ egrep '"[A-ZÁČŠ][a-záš].-' sme-dis | grep guovlu | wc -l 266 giellatekno:2012-05-28 lene$ egrep '"[A-ZÁČŠ][a-záš].guovl.\?' sme-*dis | grep guovlu | wc -l 34

albbas commented 11 years ago

Comment 6865

Date: 2012-09-21 11:10:10 +0200 From: Sjur Nørstebø Moshagen <>

Etter diskusjon med Trond i går så føreslår eg dette:

Vi lagar eit nytt R-leksikon RProp:

LEXICON RProp RHyph ; +Use/-Spell: Nouns ;

og endrar R-peikarane i proper-morf til å peika til RProp, istf RHyph - bortsett frå at vi ikkje endrar det for leksikon som gjeld korte ein- og tostava ord av typen som er nemnde mot slutten av Comment #3.

Då opnar vi for at analysatoren kan kjenna att alle samanetjingar med Prop+noun utan bindestrek, men utan at det påverkar stavekontrollane våre.

Om dette likevel blir for kraftig, kan vi avgrensa vidare ved å laga eit eige leksikon for proper-etterledd, slik Lene føreslår i Comment #6.

albbas commented 11 years ago

Comment 6879

Date: 2012-09-21 15:06:45 +0200 From: Trond Trosterud <>

Eg er samd med Sjur. Eigne leksika for 2- og 3- bokstavsnamn, og deretter RProp.

albbas commented 11 years ago

Comment 6880

Date: 2012-09-21 15:12:34 +0200 From: Lene Antonsen <>

Jeg foreslår at vi holder slike ord utenom:

Ellers så får vi mye unødvendig ambuiguitet

albbas commented 11 years ago

Comment 6929

Date: 2012-09-27 11:17:16 +0200 From: Thomas Omma <>

this is made for Sjur, the R-lexicon expert

albbas commented 11 years ago

Comment 7429

Date: 2012-11-19 16:07:04 +0100 From: Lene Antonsen <>

Det hadde vært fint å se på denne. Jeg tester analyse av web-sider for view/werti-program som Heli begynner å arbeide med. Hvis vi får det til, så skal vi analysere web-sider on the fly og lage grammatikkoppgaver av dem. Jeg ser at det en del missing pga manglende Proper+N, og da blir ikke disambigueringa bra.

I teksten som jeg ser på nå, er det Nordlysbádas og Nordlysbádii som ikke får analyse.

Det er snakk om den deskriptive analysatoren, så dette kan godt være Sub, etter evt merka med no-Spell. Det kan nok være en god ide å begrense dette til ord med minst 4 bokstaver, slik som Trond foreslår. Og begrensning på ord som er både proper og vanlig noun, som første ledd. De trenger vi egentlig ikke, for vi får analyse uansett, og de skaper unødvedig homonymi.

albbas commented 11 years ago

Comment 8008

Date: 2013-02-26 23:01:19 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #7)

Etter diskusjon med Trond i går så føreslår eg dette:

Vi lagar eit nytt R-leksikon RProp:

LEXICON RProp RHyph ; +Use/-Spell: Nouns ;

Dette har eg gjort no i svn r 71903:

"An attempt at solving bug #1428 (http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=1428), in accordance with comment #7. I tried to test, but SME compilation is broken ATM. My change should not be problematic though. The next step in fixing this bug is to redirect the relevant proper noun lexicons to point to RProp instead of RHyph as they do now."

Så: RProp er no definert. Ta det i bruk, og sjå om det løyser problema.

albbas commented 11 years ago

Comment 8014

Date: 2013-02-27 08:28:29 +0100 From: Trond Trosterud <>

sme.fst kompilerer no.

(det var to problem: 1. feil leksikonnamn London-Plc pro LONDON-plc in smi propernoun, og 2. Nouns pro NounRoot i RProp. )

Så no er det berre å teste samansetjingar. Første forsøk ser ikkje bra ut:

usme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% Finnmárkkujuogus Finnmárkkujuogus Finnmárkkujuogus +?

albbas commented 11 years ago

Comment 8016

Date: 2013-02-27 08:54:55 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #13)

Så no er det berre å teste samansetjingar. Første forsøk ser ikkje bra ut:

usme Finnmárkkujuogus Finnmárkkujuogus Finnmárkkujuogus +?

Det er fordi:

(In reply to comment #12)

Så: RProp er no definert. Ta det i bruk, og sjå om det løyser problema.

Dvs: Finnmárkku viser kanskje ikkje til RProp enno?

albbas commented 11 years ago

Comment 8034

Date: 2013-03-04 19:44:27 +0100 From: Lene Antonsen <>

gt$ svn ci -m "La til CmpN/SgN+Use/Sub: RProp til leksikonene, vi kan vurdere effekten." sme/src/propernoun-sme-morph.txt Sending sme/src/propernoun-sme-morph.txt Transmitting file data . Committed revision 72292.

Denne tar bare Nom, ikke Gen som i Finnmárkkujuogus

albbas commented 11 years ago

Comment 8042

Date: 2013-03-05 10:26:33 +0100 From: Lene Antonsen <>

Vi får en del uønska sammensetninger ala:

Liisá Li+N+Prop+Sur+Cmp#isá+Hum+N+Sg+Nom Buolbmát Bu+N+Prop+Plc+Cmp#olmmái+N+Pl+Nom Henriksen Hen+N+Prop+Mal+Cmp#rikse+N+Ess Lunddolaš Lund+N+Prop+Plc+Cmp#dolla+N+Der/Dimin+N+Sg+Nom

Slike lager ikke problemer for den syntaktiske analysen fordi de blir ryddet bort av lookup2cg, men det er kanskje ikke så pent i analysatoren på nettet?

Forslag til løsning: La alle prop med 2-3-4 bokstaver gå til egne leksikon som ikke går videre til RProp

albbas commented 11 years ago

Comment 8141

Date: 2013-04-12 09:47:33 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #16)

Vi får en del uønska sammensetninger ala:

Liisá Li+N+Prop+Sur+Cmp#isá+Hum+N+Sg+Nom Buolbmát Bu+N+Prop+Plc+Cmp#olmmái+N+Pl+Nom Henriksen Hen+N+Prop+Mal+Cmp#rikse+N+Ess Lunddolaš Lund+N+Prop+Plc+Cmp#dolla+N+Der/Dimin+N+Sg+Nom

Slike lager ikke problemer for den syntaktiske analysen fordi de blir ryddet bort av lookup2cg, men det er kanskje ikke så pent i analysatoren på nettet?

Forslag til løsning: La alle prop med 2-3-4 bokstaver gå til egne leksikon som ikke går videre til RProp

Dette er berre eit kosmetisk problem som berre gjeld den morfologiske analysatoren på nettet. I alle andre samanhengar forsvinn dei uønska analysene før dei kjem fram til "brukaren". Eg føreslår PRI5.

albbas commented 11 years ago

Comment 8150

Date: 2013-04-16 10:37:20 +0200 From: Lene Antonsen <>

Dette er berre eit kosmetisk problem som berre gjeld den morfologiske analysatoren på nettet. I alle andre samanhengar forsvinn dei uønska analysene før dei kjem fram til "brukaren". Eg føreslår PRI5.

Det var min konklusjon, men jeg glemte Neahttadigisánit.

Neahttadigisánit bruker deskriptiv fst for analyse og norm for generering. Jeg ser at Ryan ikke har fornya fst-en på en stund, men neste gang han gjør det, vil problemet dukke opp i Neahttadigisánit, så vi bør gjøre noe med det ganske snart.

Når VD skal genereres på nytt, blir en del lemmaer i smenob-filene endra ihht til endringer i fst (f.eks. oahpaheaddjilatnja => oahpaheaddelatnja", og da er vi nødt til å fornye fst-en i Neahttadigisánit, hvis ikke så vil den gi et anna lemma enn det som er i ordboka. Tilsvarende for generering,

Alternativt må vi "slå av" prop+noun.

Jeg setter opp prioriteringa på denne. Det er vel ikke så stor jobb heller, hvis vi bare er enige om hvordan.

albbas commented 10 years ago

Comment 8510

Date: 2013-09-13 08:58:11 +0200 From: Lene Antonsen <>

Neahttadigisánit bruker deskriptiv fst for analyse og norm for generering. Jeg ser at Ryan ikke har fornya fst-en på en stund, men neste gang han gjør det, vil problemet dukke opp i Neahttadigisánit, så vi bør gjøre noe med det ganske snart.

Dette er likevel ikke problematisk for NDS fordi den bare presenterer stedsnavn som finnes i dict-filene, og dermed blir ikke analyser av denne typen presentert for brukeren: Buolbmát Bu+N+Prop+Plc+Cmp#olmmái+N+Pl+Nom

Men i analysatoren på web blir de presentert.

albbas commented 9 years ago

Comment 9955

Date: 2015-01-11 15:14:12 +0100 From: Trond Trosterud <>

(In reply to comment #17)

Dette er berre eit kosmetisk problem som berre gjeld den morfologiske analysatoren på nettet. I alle andre samanhengar forsvinn dei uønska analysene før dei kjem fram til "brukaren". Eg føreslår PRI5.

Nei, dette er ikkje berre eit kosmisk problem.

I stavekontrollen for LibreOffice godkjenner vi former som Buuksa, Buiđit, jf. særleg Buuksa som er svært nær eksisterande "buksa":

Buiđit Buiđit Bu+N+Prop+Sem/Plc+Cmp#iđit+N+Sg+Nom

Buuksa Buuksa Bu+N+Prop+Sem/Plc+Cmp#uksa+N+Sg+Nom

buksa buksa buksa+N+Sg+Nom

Så dette må få prioritet, pga stavekontrollen. Desse samansetjingane dukkar også opp på forslagslistene (skriv t.d. inn nonsensforma Buuksa og sjå på framlegsslista). Det same problemet hadde vi for fkv-speller, der fjerna eg samansetjingar med to bokstavar.

albbas commented 9 years ago

Comment 10151

Date: 2015-02-12 21:40:08 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #18)

Når VD skal genereres på nytt, blir en del lemmaer i smenob-filene endra ihht til endringer i fst (f.eks. oahpaheaddjilatnja => oahpaheaddelatnja", og da er vi nødt til å fornye fst-en i Neahttadigisánit, hvis ikke så vil den gi et anna lemma enn det som er i ordboka. Tilsvarende for generering,

Alternativt må vi "slå av" prop+noun.

Eg føreslår at vi slår av prop+noun for VD. Dei namna det måtte gjelda som finst i ordbøkene for VD bør leksikaliserast, og då burde problemet vera løyst for VD sin del. Eller?

Det andre problemet nemner Trond: (In reply to comment #20)

(In reply to comment #17)

Dette er berre eit kosmetisk problem som berre gjeld den morfologiske analysatoren på nettet. I alle andre samanhengar forsvinn dei uønska analysene før dei kjem fram til "brukaren". Eg føreslår PRI5.

Nei, dette er ikkje berre eit kosmisk problem.

I stavekontrollen for LibreOffice godkjenner vi former som Buuksa, Buiđit, jf. særleg Buuksa som er svært nær eksisterande "buksa":

Buiđit Buiđit Bu+N+Prop+Sem/Plc+Cmp#iđit+N+Sg+Nom

Buuksa Buuksa Bu+N+Prop+Sem/Plc+Cmp#uksa+N+Sg+Nom

buksa buksa buksa+N+Sg+Nom

Så dette må få prioritet, pga stavekontrollen. Desse samansetjingane dukkar også opp på forslagslistene (skriv t.d. inn nonsensforma Buuksa og sjå på framlegsslista). Det same problemet hadde vi for fkv-speller, der fjerna eg samansetjingar med to bokstavar.

Her er det fleire ting å seia:

1) stien utan bindestrek er merka med +Use/-Spell, så slike samansetjingar skal ikkje koma med i stavekontrollen 2) det finst ein eksisterande, alternativ måte å regulera slike problematiske samansetjingar på, som vi har nytta i plx-stavekontrollane i lang tid, og som no er på veg inn i hfst-stavekontrollane: +CmpN/-taggane

Her er eit døme:

Bu+CmpN/None+OLang/UND:Bu ACCRA-plc ;

LEXICON ACCRA-plc ! Place names +N+Prop+Sem/Plc:%> ACCRADECL_PLC-ORG ;

LEXICON ACCRADECL_PLC-ORG ACCRA-DC ;

LEXICON ACCRA-DC @U.Cap.Obl@ ACCRA-NE ;

LEXICON ACCRA-NE +Sg+Nom: K ; +CmpN/SgN: RHyph ; +CmpN/SgN+Use/-Spell: RProp ; +Ess:n K ;

Samansetjingar med Bu- (utan bindestrek) blir aksepterte av sme-norm-analysatoren:

$ lookup -q src/analyser-gt-norm.xfst Buolbmát Buolbmát Bu +N+Prop+Sem/Plc+Cmp#olmmái+N+Pl+Nom Buolbmát Bu +N+Prop+Sem/Plc+Cmp#olmmái+N+Sg+Gen+PxSg2 Buolbmát Bu +N+Prop+Sem/Plc+Cmp#olmmái+N+Sg+Acc+PxSg2 Buolbmát Bu +N+Prop+Sem/Plc+Cmp#olmmái+N+Sg+Nom+PxSg2 Buolbmát Buolbmát+N+Prop+Sem/Plc+Sg+Nom

MEN dei blir ikkje aksepterte av fst-stavekontrollane lenger, heller ikkje med bindestrek:

$ hfst-lookup -q tools/spellcheckers/fstbased/analyser-fstspeller-gt-norm.hfst Buolbmát Buolbmát Buolbmát+OLang/UND+N+Prop+Sem/Plc+Sg+Nom 0,000000

Bu-olbmát Bu-olbmát Bu-olbmát+? inf

Buiđit Buiđit Buiđit+? inf

Bu-iđit Bu-iđit Bu-iđit+? inf

buksa buksa buksa+N+Sg+Nom 0,000000

Det er to ting som fungerer som det skal no: samansetjingar prop+noun utan bindestrek blir ikkje godteke av stavekontrollen (i alle fall ikkje om dei er tagga +Use/-Spell), og ord som er tagga +CmpN/None lagar ikkje samansetjingar i det heile (inntil vidare berre om det berre finst éin CmpN-tagg, men det vil typisk vera slik for CmpN/None - støtte for fleire CmpN-taggar for same ord er på veg).

Eg føreslår at vi klarar oss med kombinasjonen av desse to taggane (og andre +CmpN-taggar) for stavekontrollbruk, og at vi slår av prop+noun utan bindestrek for VD.

albbas commented 9 years ago

Comment 10158

Date: 2015-02-13 00:57:10 +0100 From: Lene Antonsen <>

Presentasjonen Buolbmát ut i NDS gir både stedsnavnet og ordet olmmái, pga av analysen Bu+N+Prop+Sem/Plc+Cmp#olmmái+N+Pl+Nom

 Buolbmát (subst.)

(Tana) Polmak Buolbmát Oza buot hámiid teavsttain → subst. egennavn entall akkusativ subst. egennavn attr. subst. egennavn entall genitiv subst. egennavn entall nominativ   olmmái (subst.)

mann venn, kamerat olmmái Oza buot hámiid teavsttain → subst. entall akkusativ poss. 2.p.ent. subst. entall genitiv poss. 2.p.ent. subst. entall nominativ poss. 2.p.ent. subst. flertall nominativ

Other analyses for Buolbmát without a translation. Bu Oza buot hámiid teavsttain → subst. egennavn

Enten så bør vi hindre slik Cmp for korte navn (skal vi bruke diakr flagg eller kanskje heller lage et eget BERN for korte navn?), eller skal vi be Ryan filtrere bort slike?

albbas commented 9 years ago

Comment 10159

Date: 2015-02-13 01:34:37 +0100 From: Lene Antonsen <>

Jeg har laga en løsning for BERN, i først omgang bare i sme-propernouns slik at det ikke berører sma og smj enda. Det må lages egne contleksikon også for ACCRA.

Her ser vi at det fungerer:

Šur+OLang/UND:Šur BERNnotCMP-mal ;

sme$ usme Buolbmát Buolbmát Bu+N+Prop+Sem/Plc+Cmp#olmmái+N+Pl+Nom Buolbmát Bu+N+Prop+Sem/Plc+Cmp#olmmái+N+Sg+Gen+PxSg2 Buolbmát Bu+N+Prop+Sem/Plc+Cmp#olmmái+N+Sg+Acc+PxSg2 Buolbmát Bu+N+Prop+Sem/Plc+Cmp#olmmái+N+Sg+Nom+PxSg2 Buolbmát Buolbmát+N+Prop+Sem/Plc+Sg+Nom Buolbmát Buolbmát+N+Prop+Sem/Plc+Sg+Gen+Err/Sub Buolbmát Buolbmát+N+Prop+Sem/Plc+Sg+Acc+Err/Sub

Šurolbmát Šurolbmát Šurolbmát +?

Šur Šur Šur+N+Prop+Sg+Nom Šur Šur+N+Prop+Sg+Gen Šur Šur+N+Prop+Sg+Acc

Forslag til navn på leksikonene?

albbas commented 9 years ago

Comment 10160

Date: 2015-02-13 07:52:17 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #22)

Enten så bør vi hindre slik Cmp for korte navn (skal vi bruke diakr flagg eller kanskje heller lage et eget BERN for korte navn?), eller skal vi be Ryan filtrere bort slike?

Det eg prøvde å seia med kommentaren min var:

Når det gjeld CmpN-taggane, kan dei delast i to:

Dei siste er språkspesifikke, og truleg ikkje relevante for denne diskusjonen (og eg har enno ikkje laga støtte for dei).

Men den fyrste gruppa burde kunne vera eit svar på problema for VD (og NDS?). Taggane der er:

+CmpN/First !!≈ @CODE@ - ... can only be first part in a compound or alone +CmpN/Last !!≈ @CODE@ - ... can only be last part in a compound or alone +CmpN/None !!≈ @CODE@ - ... can not take part in compounds +CmpN/Only !!≈ @CODE@ - ... can only be part of a compound, i.e. can never !! be used alone, but can appear in any position +CmpN/Pref !!≈ * @CODE@ - ... can only be first part in a compound, and !! NEVER alone

Dvs i staden for å laga nye leksikon, merker vi orda med +CmpN/None, slik mange alt er merka, og så bruker vi CmpN-filtreringa på dict-analysatorane i tillegg til stavekontrollen.

Den aller enklaste løysinga er å ikkje tillata samansetjingar utan bindestrek for prop for dict-analysatorane.

Eg synest altså at vi ikkje skal laga nye leksikon, men heller sjå på alternativa, slik eg har skissert her.

albbas commented 9 years ago

Comment 10164

Date: 2015-02-13 08:19:15 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #24)

Den aller enklaste løysinga er å ikkje tillata samansetjingar utan bindestrek for prop for dict-analysatorane.

Kva om vi merker slike samansetjingar med ein ny tagg +NoHyph (parallelt til +Hyph for samansetjingar med bindestrek der ein vanlegvis ikkje ventar seg det), og blokkerer slike samansetjingar for dict-analysatorane?

Ein slik tagg kunne vera nyttig i disambigueringa og grammatikkontrollen òg, for å signalisera at her er det ei samansetjing som kanskje ikkje er optimal/korrekt eller ei analyse som ein kanskje ikkje vil ha.

Eg legg til Linda på Cc-lista, så kan ho kommentera grammatikkontrollsida av det (og så fjerner eg Biret Ánne, Berit Merete og Ritva frå Cc-lista).

albbas commented 9 years ago

Comment 10165

Date: 2015-02-13 09:05:03 +0100 From: Lene Antonsen <>

(> Dvs i staden for å laga nye leksikon, merker vi orda med +CmpN/None, slik mange

alt er merka, og så bruker vi CmpN-filtreringa på dict-analysatorane i tillegg til stavekontrollen.

Ja, det er jeg helt for. Legg til i dict-generatoren, og så kan vi bruke denne løsningen. Men det kan ikke testes før filtreringa er gjort.

albbas commented 9 years ago

Comment 10166

Date: 2015-02-13 11:05:43 +0100 From: Trond Trosterud <>

Eg rekk ikkje å sjå på det no, men eg har altså laga eit system for korte samansetjingar i kvensk, så viss det kan vere med i den allmenne standardiseringa er det fint.

albbas commented 9 years ago

Comment 10168

Date: 2015-02-13 16:36:01 +0100 From: Sjur Nørstebø Moshagen <>

Eg fann ikkje noko i fkv-filene.

Det Lene og eg kom fram til var ein kombinasjon av eige leksikon for korte namn og flaggdiakritika. No får vi akkurat det vi vil ha. Jf. svn rev. 107 389.

Med dette kan vi endeleg avslutta denne saka.

albbas commented 9 years ago

Comment 10169

Date: 2015-02-13 17:08:13 +0100 From: Lene Antonsen <>

Veldig mye er blitt bra no, men det er dukket opp litt rusk i maskineriet. Vi har på vegen mista sammensetning med hyph mellom navn, f.eks.:

sme$ usme Farmen-Mikkel Farmen-Mikkel Farmen-Mikkel +?

Ánne-Sofe Ánne-Sofe Ánne-Sofe +?

Paadar-Leivo Paadar-Leivo Paadar-Leivo +? (skal være Paadar-Leivo N Prop Sg Nom

Dette er navn i sme-goldcorpus.txt, og dette har fungert tidligere.

albbas commented 9 years ago

Comment 10170

Date: 2015-02-13 18:45:27 +0100 From: Lene Antonsen <>

Date: 2015-02-13 18:41:30 +0100 (bear, 13 guov 2015) New Revision: 107400

Modified: trunk/langs/sme/src/morphology/root.lexc Log: Endra på strukturen på Propernouns-leksikonene slik at det er mulig med sammensetning med hyph med to proper - Farmen-Mikkel.