Closed albbas closed 7 years ago
Date: 2013-02-21 14:28:12 +0100
From: Berit Nystad Eskonsipo <
Enkelte Prop kan være både Plc og Sur. Nå får disse Prop kun en analyse, enten Plc eller Sur, feks.:
sme$ usme Trosterud Trosterud Trosterud+N+Prop+Plc+Sg+Nom Trosterud Trosterud+N+Prop+Plc+Sg+Gen Trosterud Trosterud+N+Prop+Plc+Sg+Acc
Nystad Nystad Nystad+N+Prop+Sur+Attr Nystad Nystad+N+Prop+Sur+Sg+Nom Nystad Nystad+N+Prop+Sur+Sg+Gen Nystad Nystad+N+Prop+Sur+Sg+Acc
Jeg spurte Duommá om dette og han sa at Trond har gjort/skulle gjøre det slik at alle Prop Sur også kan være Prop Plc. Dette er tydeligvis ikke implementert, sjekk analysen ovenfor.
Er det slik at alle Prop Sur skal også være Prop Plc? Hvis det er tilfelle så fungerer det ikke og må fikses. Hvis det ikke er tilfelle så trenger vi et leksikon for Prop som er både Plc og Sur, jmf. LONDON-malsur (Prop som er både Mal og Sur).
Date: 2013-02-21 15:22:59 +0100
From: Berit Nystad Eskonsipo <
(In reply to comment #0)
Jeg spurte Duommá om dette og han sa at Trond har gjort/skulle gjøre det slik at alle Prop Sur også kan være Prop Plc. Dette er tydeligvis ikke implementert, sjekk analysen ovenfor.
Nå skjønner jeg hva Duommá snakket om. Det finnes en CG-regel som endrer Plc til Sur under gitte betingelser:
SUBSTITUTE:PlcSur1 (Plc) (Sur) TARGET (Prop Plc) IF (-1 (Mal Attr) OR (Fem Attr))(NEGATE 0 Sur OR Ill OR Loc);
SUBSTITUTE:PlcSur2 (Plc) (Sur) TARGET (Prop Plc) IF (-2 (Mal Attr) OR (Fem Attr))(-1 ABBR);
Dette løser Trosterud-problemet, men det løser ikke problemet med at enkelte Prop er registrert som Sur, men kan samtidig være Plc, slik som Nystad.
Noen kommentarer til dette?
Date: 2013-12-30 13:41:18 +0100
From: Trond Trosterud <
Nystad-problemet:
Vi vil ikkje konvertere Sur til Plc (Pettersen ≠ Plc). Dermed er løysinga på Nystad-problemet å endre Nystad til Plc i kjeldefila.
Eg gjer framlegg om at vi (endrar Nystad og evt. andre Sur og deretter) lukkar bugen.
Date: 2013-12-30 15:25:50 +0100
From: Lene Antonsen <
Jeg støtter Tronds løsning. Det er en større jobb stems$ grep '-sur' smi-propernouns.lexc | wc -l 12705 sme$ grep '-sur' src/propernoun-sme-lex.txt | wc -l 991 Her må vurdereres hvilke navn som ikke kan være Plc
Jeg ser ellers at det er en del dubletter, f.eks. propernoun-sme-lex.txt: Aikioniemi+OLang/UND:Aikio#niemi ACCRA-sur ; Aittomäki+OLang/UND:Aitto#mäki ACCRA-sur ; Akujärvi+OLang/UND:Aku#järvi ACCRA-sur ; Alakoski+OLang/UND:Ala#koski ACCRA-sur ;
smi-propernouns.lexc: Aikioniemi+OLang/FIN:Aikio#niemi PIPPI-sur ; Aittomäki+OLang/FIN:Aitto#mäk MAKI-sur ; Akujärvi+OLang/FIN:Aku#järv MAKI-sur ; Alakoski+OLang/FIN:Ala#koski PIPPI-sur ;
Date: 2013-12-30 17:11:04 +0100
From: Trond Trosterud <
Eg har sett litt etter, og det ser ut til at alle finske namn med etterledd på -järvi, -joki, -koski, -niemi og evt. andre naturetterledd som er merka som -sur også kan vere stadnamn. Dei bør vi dermed endre til -sur.
Når det gjeld -stad er eg ikkje like sikker. At mange -stad kan vere plc er heilt sikkert. I dag har vi berre desse: Harstad+OLang/NOB:Har9#stad9 BERN-plc ; Kårstad+OLang/NOB:Kår9#stad9 BERN-plc ; Skjerstad+OLang/NOB:Skjer9#stad9 BERN-plc ; Svestad+OLang/NOB:Sve#stad9 BERN-plc ;
... og Nystad (ei bygd i Fauske og ein by i Finland) manglar. Derimot er Benestad berre eit etternamn. -stad og andre må vi dermed sjå på.
Dublettar smi vs sme: Det må vi sjå på, men kanskje etter at dublettane internt i sme-propernoun er fjerna.
Date: 2013-12-30 22:41:19 +0100
From: Lene Antonsen <
(In reply to comment #4)
Eg har sett litt etter, og det ser ut til at alle finske namn med etterledd på -järvi, -joki, -koski, -niemi og evt. andre naturetterledd som er merka som -sur også kan vere stadnamn. Dei bør vi dermed endre til -sur.
Endre til -plc, regner jeg med at du mener.
Date: 2013-12-30 22:51:05 +0100
From: Trond Trosterud <
Absolutt. Eg låg eit skritt foran. Eg meinte: Endre til -plc i lexc-fila, og deretter med ein regel til -sur for relevant kontekst i .cg3-fila.
Date: 2014-01-02 09:49:17 +0100
From: Lene Antonsen <
Endre til -plc i lexc-fila, og deretter med ein regel til -sur for relevant kontekst i .cg3-fila. Slike regler finnes allerede i functions.cg3
Date: 2014-10-14 12:08:36 +0200
From: Thomas Omma <
smi $ svn ci -m "made the sur-to-plc change according to Bug1618" src/morphology/stems/smi-propernouns.lexc Sending src/morphology/stems/smi-propernouns.lexc Transmitting file data . Committed revision 101160.
I have changed stad, niemi, koski, joki, järvi, mäki
kva meir?
Date: 2014-10-21 15:42:43 +0200
From: Trond Trosterud <
Neste steg lar vi vere dette:
Av alle -sur-namna i ~/main/gtcore/gtdshared/smi/src/morphology/stems/smi-propernouns.lexc er det 144 som finst i geo.fst. Dei kan vi evt. endre frå sur til plc.
Aarnes Aust-Agder Barrow Baukop Berg Blåmannsisen Borås Brack Braunschweig Brüssel Bug Bunes Burgen Bårjås Båteng Båtnes Christchurch Churchill Dalen Dammen Darling Darwin Denver Dikson Eliasen Fairbanks Falster Finnsnes Fossen Frostisen Fugleberg Gamvik Genova Haag Halsen Hamnnes Harbin Hasvik Hasvåg Hatter Haugen Hestnes Hetta Horndal Humpen Jeanoe Junkeren Kiberg Kiev Kilen Kim Kirov Kjæs Klubbukt Kongsnes Korsnes Kujbysjev Kunes Königsberg Langnes Larsnes Larvik Lenvik Lilongwe Losvik Luck Lyngen Masternes Mauritius Moss Munster Murray Mussir Mårnes Mørsvik Münster Nakken Namsen Nes Nesset Neumünster Niger Niittyvuopio Näkkäläjärvi Næstved Ohock Oranje Ostrov Pollen Polock Pommer Pskov Pyongyang Ranttila Reppen Rivarbukt Riyadh Ruotsi Røyrvik Saarikoski Saltnes Samuelsberg Sandnes Sandvik Saratov Schwerin Selnes Seoul Shenyang Sirma Sluck Slåtten Sohppar Soppero Stigen Storbukt Storli Storriten Strømmen Sund Suomi Svartisen Sverdlovsk Tallinn Tangen Tiber Tovik Turkki Ulvenes Varberg Vega Veines Vest-Agder Vilja Vilnius Volhov Volkhov Værnes Weser Whitehorse Wien Århus Øvergård
Dette er ein scripte-jobb, så eg gjev dette til Cip heller enn til Thomas. Jobben er:
Viss namnet står på lista ovafor skal suffikset -sur bli endra til -plc. Altså frå: Königsberg+OLang/NOB:Königs#berg9 BERN-sur ; til Königsberg+OLang/NOB:Königs#berg9 BERN-plc ;
Date: 2015-09-21 10:36:24 +0200
From: Sjur Nørstebø Moshagen <
No need to have Biret Ánne, Berit Merete and Ritva on the CC list anymore.
Date: 2015-09-21 13:00:27 +0200
From: Lene Antonsen <
Hva er status på denne? Jeg legger Kevin til som CC fordi dette også gjelder saka som han tok opp på mail, om de uheldige sidene for apertium ved å endre semtagg i vislcg3 istedenfor i lexc. Og jeg legger til Linda.
Date: 2015-09-21 16:28:28 +0200
From: Ciprian Gerstenberger <
Output av den siste versjon:
sme>usme Trosterud Trosterud Trosterud+N+Prop+Sem/Plc+Sg+Nom Trosterud Trosterud+N+Prop+Sem/Plc+Sg+Gen Trosterud Trosterud+N+Prop+Sem/Plc+Sg+Acc
Nystad Nystad Nystad+N+Prop+Sem/Plc+Sg+Nom Nystad Nystad+N+Prop+Sem/Plc+Sg+Gen Nystad Nystad+N+Prop+Sem/Plc+Sg+Acc
bort sett fra Sem/Plc instede av Plc er det ingen forandring. Dette er hele Tronds domene.
Date: 2015-09-21 22:14:54 +0200
From: Trond Trosterud <
Men det var akkurat det som skulle forandrast: Både Trosterud og Nystad er Plc, og blir endra til Sur i slike kontekstar:
Trond-MacBook-Air:smn trond$ echo "Trond Trosterud" | smedis
"
Så denne buggen er löyst (bortsett frå evt. namn som ikkje har rett klasse)
Date: 2015-09-21 22:42:55 +0200
From: Lene Antonsen <
Her er det flere ting. 1) navnene som er nevnt i Comment 9: Har alle disse fått Sem/Plc? Ihvertfall ikke denne: Øvergård Øvergård+N+Prop+Sem/Sur+Sg+Nom
2) Vi har regler i vislcg3 for å endre Sem/Plc til Sem/Sur i hht til kontekst. Men Kevin har skrevet mail om at dette er et problem for Apertium, fordi man ikke får taggen overført til MT seksjonen hvis den ikke er med lexc. Skal vi heller gi Sem/Plc_Sur til disse navnene og så endre til Sem/Sur i vislcg3?
Date: 2015-09-21 22:47:14 +0200
From: Trond Trosterud <
Övergård osb -- må vi fikse. Eg veit ikkje kven og når, men denne får vere open til då. Apertium-problemet: Svaret er etter mitt syn Sem_Sur_Plc.
Date: 2015-09-21 23:06:31 +0200
From: Lene Antonsen <
Apertium-problemet: Svaret er etter mitt syn Sem_Sur_Plc. Vi har ellers rutine med å ha semtaggene i alfabetisk rekkefølge. Hva er argumentet for Sem_Sur_Plc?
Date: 2016-12-18 13:50:50 +0100
From: Trond Trosterud <
Til Lene sine kommentarar: 2) Ja, du har rett. "Plc i fst, over til Sur i CG" fungerer fint, og bør funtere her også.
1) Og dermed skal desse namna få Plc og ikkje Sur i giella-core/smi/src/morphology/stems (eg gjekk gjennom lista og fjerna eit par som berre (eller primært) kan vere etternamn)). Buggen går med andre ord over til Ciprian, som kan scripte desse frå Sem/Sur til Sem/Plc i .lexc-fila.
Aust-Agder Barrow Baukop Berg Blåmannsisen Borås Braunschweig Brüssel Bunes Burgen Bårjås Båteng Båtnes Christchurch Churchill Dalen Darling Darwin Denver Dikson Fairbanks Falster Finnsnes Fossen Frostisen Fugleberg Gamvik Genova Haag Halsen Hamnnes Harbin Hasvik Hasvåg Hatter Haugen Hestnes Hetta Horndal Humpen Junkeren Kiberg Kiev Kilen Kirov Kjæs Klubbukt Kongsnes Korsnes Kujbysjev Kunes Königsberg Langnes Larsnes Larvik Lenvik Lilongwe Losvik Luck Lyngen Masternes Mauritius Moss Munster Murray Mussir Mårnes Mørsvik Münster Nakken Namsen Nes Nesset Neumünster Niger Niittyvuopio Näkkäläjärvi Næstved Ohock Oranje Ostrov Pollen Polock Pommer Pskov Pyongyang Ranttila Reppen Rivarbukt Riyadh Ruotsi Røyrvik Saarikoski Saltnes Samuelsberg Sandnes Sandvik Saratov Schwerin Selnes Seoul Shenyang Sirma Sluck Slåtten Sohppar Soppero Stigen Storbukt Storli Storriten Strømmen Sund Suomi Svartisen Sverdlovsk Tallinn Tangen Tiber Tovik Turkki Ulvenes Varberg Vega Veines Vest-Agder Vilja Vilnius Volhov Volkhov Værnes Weser Whitehorse Wien Århus Øvergård
Date: 2016-12-18 14:34:28 +0100
From: Lene Antonsen <
En presisering: I buggen er det også diskutert løsninga Sem/Plc_Sur, men vi har funnet ut at det beste for apertium er at alle som går til -plc - leksikon, får både Sem/Plc og Sem/Sur i affix-fila, og så disambigueres det med vislcg3,
Date: 2016-12-19 13:06:42 +0100
From: Ciprian Gerstenberger <
(In reply to Trond Trosterud from comment #17)
Til Lene sine kommentarar: 2) Ja, du har rett. "Plc i fst, over til Sur i CG" fungerer fint, og bør funtere her også.
1) Og dermed skal desse namna få Plc og ikkje Sur i giella-core/smi/src/morphology/stems (eg gjekk gjennom lista og fjerna eit par som berre (eller primært) kan vere etternamn)). Buggen går med andre ord over til Ciprian, som kan scripte desse frå Sem/Sur til Sem/Plc i .lexc-fila.
Det finnes verken giella-core/smi/src/morphology/stems/smi-propernouns.lexc eller
(In reply to Trond Trosterud from comment #9)
~/main/gtcore/gtdshared/smi/src/morphology/stems/smi-propernouns.lexc
Jeg antar du mener
~/main/giella-shared/smi/src/morphology/stems/smi-propernouns.lexc
Date: 2016-12-19 16:25:37 +0100
From: Trond Trosterud <
(In reply to Ciprian Gerstenberger from comment #19)
Jeg antar du mener ~/main/giella-shared/smi/src/morphology/stems/smi-propernouns.lexc
Ja (det var skrivefeil).
Date: 2016-12-19 21:43:12 +0100
From: Ciprian Gerstenberger <
Bug fixed in svn revision 145523.
This issue was created automatically with bugzilla2github
Bugzilla Bug 1618
Date: 2013-02-21T14:28:12+01:00 From: Berit Nystad Eskonsipo <>
To: Ciprian Gerstenberger <>
CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud, @unhammer@fsfe.org
Last updated: 2016-12-19T21:43:12+01:00