giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Prop som er både Plc og Sur - manglende analyse ( #360

Closed albbas closed 7 years ago

albbas commented 11 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1618

Date: 2013-02-21T14:28:12+01:00 From: Berit Nystad Eskonsipo <> To: Ciprian Gerstenberger <> CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud, @unhammer@fsfe.org

Last updated: 2016-12-19T21:43:12+01:00

albbas commented 11 years ago

Comment 7980

Date: 2013-02-21 14:28:12 +0100 From: Berit Nystad Eskonsipo <>

Enkelte Prop kan være både Plc og Sur. Nå får disse Prop kun en analyse, enten Plc eller Sur, feks.:

sme$ usme Trosterud Trosterud Trosterud+N+Prop+Plc+Sg+Nom Trosterud Trosterud+N+Prop+Plc+Sg+Gen Trosterud Trosterud+N+Prop+Plc+Sg+Acc

Nystad Nystad Nystad+N+Prop+Sur+Attr Nystad Nystad+N+Prop+Sur+Sg+Nom Nystad Nystad+N+Prop+Sur+Sg+Gen Nystad Nystad+N+Prop+Sur+Sg+Acc

Jeg spurte Duommá om dette og han sa at Trond har gjort/skulle gjøre det slik at alle Prop Sur også kan være Prop Plc. Dette er tydeligvis ikke implementert, sjekk analysen ovenfor.

Er det slik at alle Prop Sur skal også være Prop Plc? Hvis det er tilfelle så fungerer det ikke og må fikses. Hvis det ikke er tilfelle så trenger vi et leksikon for Prop som er både Plc og Sur, jmf. LONDON-malsur (Prop som er både Mal og Sur).

albbas commented 11 years ago

Comment 7981

Date: 2013-02-21 15:22:59 +0100 From: Berit Nystad Eskonsipo <>

(In reply to comment #0)

Jeg spurte Duommá om dette og han sa at Trond har gjort/skulle gjøre det slik at alle Prop Sur også kan være Prop Plc. Dette er tydeligvis ikke implementert, sjekk analysen ovenfor.

Nå skjønner jeg hva Duommá snakket om. Det finnes en CG-regel som endrer Plc til Sur under gitte betingelser:

SUBSTITUTE:PlcSur1 (Plc) (Sur) TARGET (Prop Plc) IF (-1 (Mal Attr) OR (Fem Attr))(NEGATE 0 Sur OR Ill OR Loc);

$ Linda England.

SUBSTITUTE:PlcSur2 (Plc) (Sur) TARGET (Prop Plc) IF (-2 (Mal Attr) OR (Fem Attr))(-1 ABBR);

$ Linda B. England.

Dette løser Trosterud-problemet, men det løser ikke problemet med at enkelte Prop er registrert som Sur, men kan samtidig være Plc, slik som Nystad.

Noen kommentarer til dette?

albbas commented 10 years ago

Comment 8819

Date: 2013-12-30 13:41:18 +0100 From: Trond Trosterud <>

Nystad-problemet:

Vi vil ikkje konvertere Sur til Plc (Pettersen ≠ Plc). Dermed er løysinga på Nystad-problemet å endre Nystad til Plc i kjeldefila.

Eg gjer framlegg om at vi (endrar Nystad og evt. andre Sur og deretter) lukkar bugen.

albbas commented 10 years ago

Comment 8820

Date: 2013-12-30 15:25:50 +0100 From: Lene Antonsen <>

Jeg støtter Tronds løsning. Det er en større jobb stems$ grep '-sur' smi-propernouns.lexc | wc -l 12705 sme$ grep '-sur' src/propernoun-sme-lex.txt | wc -l 991 Her må vurdereres hvilke navn som ikke kan være Plc

Jeg ser ellers at det er en del dubletter, f.eks. propernoun-sme-lex.txt: Aikioniemi+OLang/UND:Aikio#niemi ACCRA-sur ; Aittomäki+OLang/UND:Aitto#mäki ACCRA-sur ; Akujärvi+OLang/UND:Aku#järvi ACCRA-sur ; Alakoski+OLang/UND:Ala#koski ACCRA-sur ;

smi-propernouns.lexc: Aikioniemi+OLang/FIN:Aikio#niemi PIPPI-sur ; Aittomäki+OLang/FIN:Aitto#mäk MAKI-sur ; Akujärvi+OLang/FIN:Aku#järv MAKI-sur ; Alakoski+OLang/FIN:Ala#koski PIPPI-sur ;

albbas commented 10 years ago

Comment 8823

Date: 2013-12-30 17:11:04 +0100 From: Trond Trosterud <>

Eg har sett litt etter, og det ser ut til at alle finske namn med etterledd på -järvi, -joki, -koski, -niemi og evt. andre naturetterledd som er merka som -sur også kan vere stadnamn. Dei bør vi dermed endre til -sur.

Når det gjeld -stad er eg ikkje like sikker. At mange -stad kan vere plc er heilt sikkert. I dag har vi berre desse: Harstad+OLang/NOB:Har9#stad9 BERN-plc ; Kårstad+OLang/NOB:Kår9#stad9 BERN-plc ; Skjerstad+OLang/NOB:Skjer9#stad9 BERN-plc ; Svestad+OLang/NOB:Sve#stad9 BERN-plc ;

... og Nystad (ei bygd i Fauske og ein by i Finland) manglar. Derimot er Benestad berre eit etternamn. -stad og andre må vi dermed sjå på.

Dublettar smi vs sme: Det må vi sjå på, men kanskje etter at dublettane internt i sme-propernoun er fjerna.

albbas commented 10 years ago

Comment 8825

Date: 2013-12-30 22:41:19 +0100 From: Lene Antonsen <>

(In reply to comment #4)

Eg har sett litt etter, og det ser ut til at alle finske namn med etterledd på -järvi, -joki, -koski, -niemi og evt. andre naturetterledd som er merka som -sur også kan vere stadnamn. Dei bør vi dermed endre til -sur.

Endre til -plc, regner jeg med at du mener.

albbas commented 10 years ago

Comment 8826

Date: 2013-12-30 22:51:05 +0100 From: Trond Trosterud <>

Absolutt. Eg låg eit skritt foran. Eg meinte: Endre til -plc i lexc-fila, og deretter med ein regel til -sur for relevant kontekst i .cg3-fila.

albbas commented 10 years ago

Comment 8832

Date: 2014-01-02 09:49:17 +0100 From: Lene Antonsen <>

Endre til -plc i lexc-fila, og deretter med ein regel til -sur for relevant kontekst i .cg3-fila. Slike regler finnes allerede i functions.cg3

albbas commented 9 years ago

Comment 9628

Date: 2014-10-14 12:08:36 +0200 From: Thomas Omma <>

smi $ svn ci -m "made the sur-to-plc change according to Bug1618" src/morphology/stems/smi-propernouns.lexc Sending src/morphology/stems/smi-propernouns.lexc Transmitting file data . Committed revision 101160.

I have changed stad, niemi, koski, joki, järvi, mäki

kva meir?

albbas commented 9 years ago

Comment 9676

Date: 2014-10-21 15:42:43 +0200 From: Trond Trosterud <>

Neste steg lar vi vere dette:

Av alle -sur-namna i ~/main/gtcore/gtdshared/smi/src/morphology/stems/smi-propernouns.lexc er det 144 som finst i geo.fst. Dei kan vi evt. endre frå sur til plc.

Aarnes Aust-Agder Barrow Baukop Berg Blåmannsisen Borås Brack Braunschweig Brüssel Bug Bunes Burgen Bårjås Båteng Båtnes Christchurch Churchill Dalen Dammen Darling Darwin Denver Dikson Eliasen Fairbanks Falster Finnsnes Fossen Frostisen Fugleberg Gamvik Genova Haag Halsen Hamnnes Harbin Hasvik Hasvåg Hatter Haugen Hestnes Hetta Horndal Humpen Jeanoe Junkeren Kiberg Kiev Kilen Kim Kirov Kjæs Klubbukt Kongsnes Korsnes Kujbysjev Kunes Königsberg Langnes Larsnes Larvik Lenvik Lilongwe Losvik Luck Lyngen Masternes Mauritius Moss Munster Murray Mussir Mårnes Mørsvik Münster Nakken Namsen Nes Nesset Neumünster Niger Niittyvuopio Näkkäläjärvi Næstved Ohock Oranje Ostrov Pollen Polock Pommer Pskov Pyongyang Ranttila Reppen Rivarbukt Riyadh Ruotsi Røyrvik Saarikoski Saltnes Samuelsberg Sandnes Sandvik Saratov Schwerin Selnes Seoul Shenyang Sirma Sluck Slåtten Sohppar Soppero Stigen Storbukt Storli Storriten Strømmen Sund Suomi Svartisen Sverdlovsk Tallinn Tangen Tiber Tovik Turkki Ulvenes Varberg Vega Veines Vest-Agder Vilja Vilnius Volhov Volkhov Værnes Weser Whitehorse Wien Århus Øvergård

Dette er ein scripte-jobb, så eg gjev dette til Cip heller enn til Thomas. Jobben er:

Viss namnet står på lista ovafor skal suffikset -sur bli endra til -plc. Altså frå: Königsberg+OLang/NOB:Königs#berg9 BERN-sur ; til Königsberg+OLang/NOB:Königs#berg9 BERN-plc ;

albbas commented 9 years ago

Comment 10717

Date: 2015-09-21 10:36:24 +0200 From: Sjur Nørstebø Moshagen <>

No need to have Biret Ánne, Berit Merete and Ritva on the CC list anymore.

albbas commented 9 years ago

Comment 10740

Date: 2015-09-21 13:00:27 +0200 From: Lene Antonsen <>

Hva er status på denne? Jeg legger Kevin til som CC fordi dette også gjelder saka som han tok opp på mail, om de uheldige sidene for apertium ved å endre semtagg i vislcg3 istedenfor i lexc. Og jeg legger til Linda.

albbas commented 9 years ago

Comment 10752

Date: 2015-09-21 16:28:28 +0200 From: Ciprian Gerstenberger <>

Output av den siste versjon:

sme>usme Trosterud Trosterud Trosterud+N+Prop+Sem/Plc+Sg+Nom Trosterud Trosterud+N+Prop+Sem/Plc+Sg+Gen Trosterud Trosterud+N+Prop+Sem/Plc+Sg+Acc

Nystad Nystad Nystad+N+Prop+Sem/Plc+Sg+Nom Nystad Nystad+N+Prop+Sem/Plc+Sg+Gen Nystad Nystad+N+Prop+Sem/Plc+Sg+Acc

bort sett fra Sem/Plc instede av Plc er det ingen forandring. Dette er hele Tronds domene.

albbas commented 9 years ago

Comment 10755

Date: 2015-09-21 22:14:54 +0200 From: Trond Trosterud <>

Men det var akkurat det som skulle forandrast: Både Trosterud og Nystad er Plc, og blir endra til Sur i slike kontekstar:

Trond-MacBook-Air:smn trond$ echo "Trond Trosterud" | smedis

"" "Trond" N Prop Sem/Mal Attr "" "Trosterud" N Prop Sem/Sur Sg Nom "Trosterud" N Prop Sem/Sur Sg Gen

Så denne buggen er löyst (bortsett frå evt. namn som ikkje har rett klasse)

albbas commented 9 years ago

Comment 10756

Date: 2015-09-21 22:42:55 +0200 From: Lene Antonsen <>

Her er det flere ting. 1) navnene som er nevnt i Comment 9: Har alle disse fått Sem/Plc? Ihvertfall ikke denne: Øvergård Øvergård+N+Prop+Sem/Sur+Sg+Nom

2) Vi har regler i vislcg3 for å endre Sem/Plc til Sem/Sur i hht til kontekst. Men Kevin har skrevet mail om at dette er et problem for Apertium, fordi man ikke får taggen overført til MT seksjonen hvis den ikke er med lexc. Skal vi heller gi Sem/Plc_Sur til disse navnene og så endre til Sem/Sur i vislcg3?

albbas commented 9 years ago

Comment 10757

Date: 2015-09-21 22:47:14 +0200 From: Trond Trosterud <>

Övergård osb -- må vi fikse. Eg veit ikkje kven og når, men denne får vere open til då. Apertium-problemet: Svaret er etter mitt syn Sem_Sur_Plc.

albbas commented 9 years ago

Comment 10758

Date: 2015-09-21 23:06:31 +0200 From: Lene Antonsen <>

Apertium-problemet: Svaret er etter mitt syn Sem_Sur_Plc. Vi har ellers rutine med å ha semtaggene i alfabetisk rekkefølge. Hva er argumentet for Sem_Sur_Plc?

albbas commented 7 years ago

Comment 11882

Date: 2016-12-18 13:50:50 +0100 From: Trond Trosterud <>

Til Lene sine kommentarar: 2) Ja, du har rett. "Plc i fst, over til Sur i CG" fungerer fint, og bør funtere her også.

1) Og dermed skal desse namna få Plc og ikkje Sur i giella-core/smi/src/morphology/stems (eg gjekk gjennom lista og fjerna eit par som berre (eller primært) kan vere etternamn)). Buggen går med andre ord over til Ciprian, som kan scripte desse frå Sem/Sur til Sem/Plc i .lexc-fila.

Aust-Agder Barrow Baukop Berg Blåmannsisen Borås Braunschweig Brüssel Bunes Burgen Bårjås Båteng Båtnes Christchurch Churchill Dalen Darling Darwin Denver Dikson Fairbanks Falster Finnsnes Fossen Frostisen Fugleberg Gamvik Genova Haag Halsen Hamnnes Harbin Hasvik Hasvåg Hatter Haugen Hestnes Hetta Horndal Humpen Junkeren Kiberg Kiev Kilen Kirov Kjæs Klubbukt Kongsnes Korsnes Kujbysjev Kunes Königsberg Langnes Larsnes Larvik Lenvik Lilongwe Losvik Luck Lyngen Masternes Mauritius Moss Munster Murray Mussir Mårnes Mørsvik Münster Nakken Namsen Nes Nesset Neumünster Niger Niittyvuopio Näkkäläjärvi Næstved Ohock Oranje Ostrov Pollen Polock Pommer Pskov Pyongyang Ranttila Reppen Rivarbukt Riyadh Ruotsi Røyrvik Saarikoski Saltnes Samuelsberg Sandnes Sandvik Saratov Schwerin Selnes Seoul Shenyang Sirma Sluck Slåtten Sohppar Soppero Stigen Storbukt Storli Storriten Strømmen Sund Suomi Svartisen Sverdlovsk Tallinn Tangen Tiber Tovik Turkki Ulvenes Varberg Vega Veines Vest-Agder Vilja Vilnius Volhov Volkhov Værnes Weser Whitehorse Wien Århus Øvergård

albbas commented 7 years ago

Comment 11883

Date: 2016-12-18 14:34:28 +0100 From: Lene Antonsen <>

En presisering: I buggen er det også diskutert løsninga Sem/Plc_Sur, men vi har funnet ut at det beste for apertium er at alle som går til -plc - leksikon, får både Sem/Plc og Sem/Sur i affix-fila, og så disambigueres det med vislcg3,

albbas commented 7 years ago

Comment 11890

Date: 2016-12-19 13:06:42 +0100 From: Ciprian Gerstenberger <>

(In reply to Trond Trosterud from comment #17)

Til Lene sine kommentarar: 2) Ja, du har rett. "Plc i fst, over til Sur i CG" fungerer fint, og bør funtere her også.

1) Og dermed skal desse namna få Plc og ikkje Sur i giella-core/smi/src/morphology/stems (eg gjekk gjennom lista og fjerna eit par som berre (eller primært) kan vere etternamn)). Buggen går med andre ord over til Ciprian, som kan scripte desse frå Sem/Sur til Sem/Plc i .lexc-fila.

Det finnes verken giella-core/smi/src/morphology/stems/smi-propernouns.lexc eller

(In reply to Trond Trosterud from comment #9)

~/main/gtcore/gtdshared/smi/src/morphology/stems/smi-propernouns.lexc

Jeg antar du mener

~/main/giella-shared/smi/src/morphology/stems/smi-propernouns.lexc

albbas commented 7 years ago

Comment 11891

Date: 2016-12-19 16:25:37 +0100 From: Trond Trosterud <>

(In reply to Ciprian Gerstenberger from comment #19)

Jeg antar du mener ~/main/giella-shared/smi/src/morphology/stems/smi-propernouns.lexc

Ja (det var skrivefeil).

albbas commented 7 years ago

Comment 11894

Date: 2016-12-19 21:43:12 +0100 From: Ciprian Gerstenberger <>

Bug fixed in svn revision 145523.