giellalt / bugzilla-dummy

0 stars 0 forks source link

dårlig setningparallellisering av viktig tekst (Bugzilla Bug 1814) #63

Open albbas opened 10 years ago

albbas commented 10 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1814

Date: 2014-02-04T11:54:59+01:00 From: Lene Antonsen <> To: Børre Gaup <> CC: borre.gaup, ritva.nystad, sjur.n.moshagen, trond.trosterud

Last updated: 2017-10-04T22:34:29+02:00

albbas commented 10 years ago

Comment 9082

Date: 2014-02-04 11:54:59 +0100 From: Lene Antonsen <>

I Korp har vi bl.a. mineralloven som inneholder terminologi som vi finner lite eller ingenting av i andre tekster. Dessverre er setningsparallellinseringa veldig dårlig. Som eksempel, søk på 'mineralske forekomster', og ingen av setningene stemmer overens nob-sme

Loven gjelder ethvert uttak av mineralske forekomster . Láhka fápmuiboahtá 2010 ođđj 1. b ; geahča § 68 . § 23 .
Leting , undersøkelse , utvinning og drift på mineralske forekomster kan bare utøves innenfor de begrensninger som følger av denne lov og annen lovgivning . Jus áigemeari ii doahttal , galgá Minerálahálddašandirektoráhtta sihkkut nuppi mieđihuvvon vuoigatvuođain . Láhka fápmuiboahtá 2010 ođđj 1. b ; geahča § 68 .
Enhver kan lete etter mineralske forekomster på fremmed grunn med de begrensninger som følger av denne lov og annen lovgivning . Jus rogganvuoigatvuohta mieđihuvvo eanet go oktii , de sii ovttas ožžot dán vuoigatvuođa , jus bealálaččat ieža eai šiehtat eará ortnega .
Leteren kan foreta arbeider i grunnens overflate som er nødvendige for å påvise mineralske forekomster . Rogganvuoigatvuohta Finnmárkkus Mearrádusat § 17 leat vástideaddjin rogganvuoigatvuođa oktavuođas Finnmárkkus .

Jeg foreslår at denne, og muligens andre lovtekster, parallelliseres manuelt.

albbas commented 10 years ago

Comment 9083

Date: 2014-02-04 12:51:55 +0100 From: Trond Trosterud <>

Eg er samd. Desse tekstane er så viktige for oss at vi bør gjere det. Den beste måten er å sparke i gang tca2 sitt grafiske grensesnitt. Dokumentasjonen er her: http://giellatekno.uit.no/doc/ling/corpus_analyze.html Er det noko som bør bli oppdatert der, med tanke på ny utvikling siste to år?

albbas commented 10 years ago

Comment 9084

Date: 2014-02-04 12:54:11 +0100 From: Ciprian Gerstenberger <>

(In reply to comment #0)

Jeg foreslår at denne, og muligens andre lovtekster, parallelliseres manuelt. Og derfor er Ciprian Gerstenberger den riktig person for å parallelisere disse tekster manuelt?

albbas commented 10 years ago

Comment 9085

Date: 2014-02-04 15:00:11 +0100 From: Trond Trosterud <>

Nei. Tilordninga her var automatisk til denne kategorien.

Det er to steg her:

  1. Sjekke om dokumentasjonen av tca2 er oppdatert + kor dei relevante tekstane er og korleis arbeidet skal bli gjort
  2. Gjere den manuelle annoteringa.

Del 1 er naturleg nok Børre/Cip-arbeid, kanskje mest Børre, som arbeidde med oppsett av grafisk tca2, viss eg hugsar riktig. For del 2 er det min eller kanske Ritva sin tur.

albbas commented 10 years ago

Comment 9109

Date: 2014-02-12 15:34:33 +0100 From: Børre Gaup <>

Jeg mistenker at mange av parallelliseringsfeilene kommer av at strukturen i filene er ulike (den ene har innholdsfortegnelse, den andre ikke, den samiske teksten har teksten «Láhka fápmuiboahtá 2010 ođđaj. 1.b; geahča § 68.» etter hver paragraf, etc.)

Jeg tok en titt på denne siden: http://lovdata.no/dokument/NL/lov/2009-06-19-101/2009-06-19-101

Der er de forskjellige delene av loven skilt inn i div-tagger med mulighet for å fjerne de delene av dokumentet som ikke er lovtekst automatisk.

Laster det ned og ser nærmere på det.

albbas commented 10 years ago

Comment 9124

Date: 2014-02-14 10:01:28 +0100 From: Ritva Nystad <>

Nå har jeg aktivt begynt å bruke Korp og finner at det er et svært nyttig redskap. Når man søker på paralelltekster smenob og nobsme, så er ikke setningene alltid paralellisert korrekt. Her er noen eksempler:

==> Ingen må forstyrre arbeidet under skillingen . Seammaládje lea boazologu mearridemiin § 60 mielde .

http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob&page=0&search=cqp%7C%5Bword+%3D+%22forstyrre%22%5D

==> http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=sme&page=0&search=cqp%7C%5Bword+%3D+%22vuorjjai%22%5D

==> Hurtigruta legger til kai i Vadsø . 13 Fg .

http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob&search=cqp%7C%5Bword+%3D+%22kai%22%5D&page=0

osv.. [reply] [-] Comment 29

albbas commented 10 years ago

Comment 9587

Date: 2014-09-18 15:16:22 +0200 From: Trond Trosterud <>

Denne buggen er framleis med oss, og treng merksemd. Etter kvart som vi får fleire og fleire brukarar av Korp kjem den stadig opp som uparallellisert tekst.

albbas commented 10 years ago

Comment 9829

Date: 2014-11-23 21:33:01 +0100 From: Lene Antonsen <>

Denne buggen er merka med as soon as possible.. Jeg kan godt hjelpe til med manuell setningsparallellisering hvis jeg bare vet hvor jeg skal arbeide.

albbas commented 10 years ago

Comment 9846

Date: 2014-11-28 00:07:04 +0100 From: Trond Trosterud <>

Prosedyre framover:

  1. Børre diskuterer med Sjur og Cip om metodar å setje in
    ...
    , enten i xsl-fila, eller i verste fall i originalen
  2. Børre sett inn
    og konverterer på nytt, og konverterer til toktmx til html
  3. Så tar vi dugnad på å rette
albbas commented 9 years ago

Comment 9921

Date: 2014-12-23 09:27:37 +0100 From: Lene Antonsen <>

Jeg har setningsparallelisert manuelt 4 lover og sendt dem til Cip. Disse kan evt være utgangspunkt for tagging i originalteksten, men også for å se på hva man kan gjøre med filene på ett eller annet sted i prosessen. Her er flere problemer:

albbas commented 9 years ago

Comment 9957

Date: 2015-01-11 16:10:35 +0100 From: Trond Trosterud <>

Vi ser på dette no i veka.

albbas commented 9 years ago

Comment 10205

Date: 2015-02-19 13:54:28 +0100 From: Børre Gaup <>

(In reply to comment #4)

Jeg mistenker at mange av parallelliseringsfeilene kommer av at strukturen i filene er ulike (den ene har innholdsfortegnelse, den andre ikke, den samiske teksten har teksten «Láhka fápmuiboahtá 2010 ođđaj. 1.b; geahča § 68.» etter hver paragraf, etc.)

Jeg tok en titt på denne siden: http://lovdata.no/dokument/NL/lov/2009-06-19-101/2009-06-19-101

Der er de forskjellige delene av loven skilt inn i div-tagger med mulighet for å fjerne de delene av dokumentet som ikke er lovtekst automatisk.

Laster det ned og ser nærmere på det.

Da fikk jeg lastet ned dette dokumentet og lagt det inn i freecorpus (r4668).

Endringene gjort i langtech r107756 førte forbedringene som ble commitet i freecorpus r4671.