giellalt / bugzilla-dummy

0 stars 0 forks source link

+MWE taggen skal ikke være synlig (Bugzilla Bug 2009) #1499

Closed albbas closed 4 years ago

albbas commented 9 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2009

Date: 2015-03-06T11:44:18+01:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: inga.l.mikkelsen, linda.wiechetek, thomas.omma, trond.trosterud

Last updated: 2020-10-27T15:19:06+01:00

albbas commented 9 years ago

Comment 10317

Date: 2015-03-06 11:44:18 +0100 From: Lene Antonsen <>

+MWE taggen skal ikke være synlig i sma eller smj heller +MWE er kun for å lage abbr

ekesmpel: ARS Reasearch er i smi-propernouns

morphology$ usme ARS Reasearch ARS Reasearch ARS Reasearch+N+Prop+Sem/Org+Sg+Nom ARS Reasearch ARS Reasearch+N+Prop+Sem/Org+Sg+Gen ARS Reasearch ARS Reasearch+N+Prop+Sem/Org+Sg+Acc

^C morphology$ usma ARS Reasearch ARS Reasearch ARS Reasearch+MWE+N+Prop+Sem/Org+Attr ARS Reasearch ARS Reasearch+MWE+N+Prop+Sem/Org+Sg+Nom ARS Reasearch ARS Reasearch+MWE+N+Prop+Sem/Org+Attr ARS Reasearch ARS Reasearch+MWE+N+Prop+Sem/Org+Sg+Nom

morphology$ usmj ARS Reasearch ARS Reasearch ARS Reasearch+MWE+N+Prop+Sem/Org+Sg+Nom

Dette er en av grunnene til problemer med å generere propernouns i sma

morphology$ dsma ARS Reasearch+MWE+N+Prop+Sem/Org+Attr ARS Reasearch+MWE+N+Prop+Sem/Org+Attr ARS Reasearch ARS Reasearch+MWE+N+Prop+Sem/Org+Attr ARS Reasearch

ARS Reasearch+N+Prop+Sem/Org+Attr ARS Reasearch+N+Prop+Sem/Org+Attr ARS Reasearch+N+Prop+Sem/Org+Attr +?

albbas commented 9 years ago

Comment 10318

Date: 2015-03-06 13:37:44 +0100 From: Sjur Nørstebø Moshagen <>

Er det rimeleg å gå ut i frå:

MWE-filtreringa har til no berre vorte laga for nordsamisk, men eg vurderer å flytta filtra over til core - difor spørsmåla.

albbas commented 9 years ago

Comment 10319

Date: 2015-03-06 14:41:42 +0100 From: Lene Antonsen <>

+MWE vil være like nyttig for de alle samiske språke for å lage preprocess

albbas commented 9 years ago

Comment 10320

Date: 2015-03-06 15:05:40 +0100 From: Lene Antonsen <>

(In reply to comment #2)

+MWE vil være like nyttig for de alle samiske språke for å lage preprocess

abbr.txt til preprocess

albbas commented 9 years ago

Comment 10321

Date: 2015-03-06 16:34:47 +0100 From: Sjur Nørstebø Moshagen <>

Fjerninga av +MWE-taggen er no flytta til core, og fungerer for alle språk. I svn r108840, 108843, 108845 og 108847.

albbas commented 9 years ago

Comment 10322

Date: 2015-03-06 16:50:27 +0100 From: Sjur Nørstebø Moshagen <>

For dokumenteringa si skuld:

sma $ lookup -q src/analyser-gt-desc.xfst ARS Reasearch ARS Reasearch ARS Reasearch +N+Prop+Sem/Org+Attr ARS Reasearch ARS Reasearch +N+Prop+Sem/Org+Sg+Nom ARS Reasearch ARS Reasearch +N+Prop+Sem/Org+Attr ARS Reasearch ARS Reasearch +N+Prop+Sem/Org+Sg+Nom

smj $ lookup -q src/analyser-gt-desc.xfst ARS Reasearch ARS Reasearch ARS Reasearch +?

smj $ lookup -q src/generator-gt-desc.xfst ARS Reasearch+N+Prop+Sg+Nom ARS Reasearch+N+Prop+Sg+Nom ARS Reasearch+N+Prop+Sg+Nom +?

Eg forstår ikkje heilt kvifor namnet ikkje går gjennom i smj. Men det er eit anna problem, som bør handterast separat.

SMA viser i alle fall at taggen er borte.

albbas commented 9 years ago

Comment 10333

Date: 2015-03-09 11:54:29 +0100 From: Lene Antonsen <>

Author: lene Date: 2015-03-06 17:07:29 +0100 (bear, 06 njuk 2015) New Revision: 108856

Modified: trunk/langs/smj/src/morphology/root.lexc Log: Deklarerte flagg som er ibruk for propernouns. Nå fungerer ARS Reasearch m.fl. også i smj

albbas commented 4 years ago

Comment 14083

Date: 2020-10-26 13:15:55 +0100 From: Lene Antonsen <>

Jeg tar opp denne diskusjonen igjen. Dette gjelder alle samiske språk. Nå er MWE taggen ikke synlig i ordanalyse: echo Riddu Riđus |husme Riddu Riđus Riddu Riđđu+v1+N+Prop+Sem/Org+Sg+Loc 0,000000 Riddu Riđus Riddu Riđđu+v1+N+Prop+Sem/Org+Sg+Loc 0,000000

echo Mun lean Riddu Riđus.|smedis using hfst-tokenize

... pos disambiguating ... "" "mun" Pron Pers Sg1 Nom : "" "leat" V IV Ind Prs Sg1 @+FMAINV : "<Riddu Riđus>" "Riddu Riđđu" MWE N Prop Sem/Org Sg Loc "<.>" "." CLB :\n

Ved tokenisering er den synlig, og den kommer mellom lemma og PoS, noe som er høvelig. Jeg ville ønske at den ikke var synlig i tokeniseringa. Er det grunner for at den bøv være synlig?

Selv om taggen blir flyttet, så vil den komme mellom morfologiske tagger, noe som ikke er helt bra, det heller.

albbas commented 4 years ago

Comment 14084

Date: 2020-10-26 14:42:57 +0100 From: Lene Antonsen <>

Her mangla et ikke, slik skal det være: Ved tokenisering er den synlig, og den kommer mellom lemma og PoS, noe som IKKE er høvelig.

albbas commented 4 years ago

Comment 14090

Date: 2020-10-27 15:19:06 +0100 From: Lene Antonsen <>

Sjur har fiksa det, nå er +MWE usynlig:

Mun lean Riddu Riđus smedis using hfst-tokenize ... pos disambiguating ... "" "mun" Pron Pers Sg1 Nom

"" "leat" V IV Ind Prs Sg1 @+FMAINV : "<Riddu Riđus>" "Riddu Riđđu" N Prop Sem/Org Sg Loc :\n