giellalt / bugzilla-dummy

0 stars 0 forks source link

dårlig setningparallellisering av viktig tekst (Bugzilla Bug 1814) #63

Open albbas opened 10 years ago

albbas commented 10 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1814

Date: 2014-02-04T11:54:59+01:00 From: Lene Antonsen <> To: Børre Gaup <> CC: borre.gaup, ritva.nystad, sjur.n.moshagen, trond.trosterud

Last updated: 2017-10-04T22:34:29+02:00

albbas commented 10 years ago

Comment 9082

Date: 2014-02-04 11:54:59 +0100 From: Lene Antonsen <>

I Korp har vi bl.a. mineralloven som inneholder terminologi som vi finner lite eller ingenting av i andre tekster. Dessverre er setningsparallellinseringa veldig dårlig. Som eksempel, søk på 'mineralske forekomster', og ingen av setningene stemmer overens nob-sme

Loven gjelder ethvert uttak av mineralske forekomster . Láhka fápmuiboahtá 2010 ođđj 1. b ; geahča § 68 . § 23 .
Leting , undersøkelse , utvinning og drift på mineralske forekomster kan bare utøves innenfor de begrensninger som følger av denne lov og annen lovgivning . Jus áigemeari ii doahttal , galgá Minerálahálddašandirektoráhtta sihkkut nuppi mieđihuvvon vuoigatvuođain . Láhka fápmuiboahtá 2010 ođđj 1. b ; geahča § 68 .
Enhver kan lete etter mineralske forekomster på fremmed grunn med de begrensninger som følger av denne lov og annen lovgivning . Jus rogganvuoigatvuohta mieđihuvvo eanet go oktii , de sii ovttas ožžot dán vuoigatvuođa , jus bealálaččat ieža eai šiehtat eará ortnega .
Leteren kan foreta arbeider i grunnens overflate som er nødvendige for å påvise mineralske forekomster . Rogganvuoigatvuohta Finnmárkkus Mearrádusat § 17 leat vástideaddjin rogganvuoigatvuođa oktavuođas Finnmárkkus .

Jeg foreslår at denne, og muligens andre lovtekster, parallelliseres manuelt.

albbas commented 10 years ago

Comment 9083

Date: 2014-02-04 12:51:55 +0100 From: Trond Trosterud <>

Eg er samd. Desse tekstane er så viktige for oss at vi bør gjere det. Den beste måten er å sparke i gang tca2 sitt grafiske grensesnitt. Dokumentasjonen er her: http://giellatekno.uit.no/doc/ling/corpus_analyze.html Er det noko som bør bli oppdatert der, med tanke på ny utvikling siste to år?

albbas commented 10 years ago

Comment 9084

Date: 2014-02-04 12:54:11 +0100 From: Ciprian Gerstenberger <>

(In reply to comment #0)

Jeg foreslår at denne, og muligens andre lovtekster, parallelliseres manuelt. Og derfor er Ciprian Gerstenberger den riktig person for å parallelisere disse tekster manuelt?

albbas commented 10 years ago

Comment 9085

Date: 2014-02-04 15:00:11 +0100 From: Trond Trosterud <>

Nei. Tilordninga her var automatisk til denne kategorien.

Det er to steg her:

  1. Sjekke om dokumentasjonen av tca2 er oppdatert + kor dei relevante tekstane er og korleis arbeidet skal bli gjort
  2. Gjere den manuelle annoteringa.

Del 1 er naturleg nok Børre/Cip-arbeid, kanskje mest Børre, som arbeidde med oppsett av grafisk tca2, viss eg hugsar riktig. For del 2 er det min eller kanske Ritva sin tur.

albbas commented 10 years ago

Comment 9109

Date: 2014-02-12 15:34:33 +0100 From: Børre Gaup <>

Jeg mistenker at mange av parallelliseringsfeilene kommer av at strukturen i filene er ulike (den ene har innholdsfortegnelse, den andre ikke, den samiske teksten har teksten «Láhka fápmuiboahtá 2010 ođđaj. 1.b; geahča § 68.» etter hver paragraf, etc.)

Jeg tok en titt på denne siden: http://lovdata.no/dokument/NL/lov/2009-06-19-101/2009-06-19-101

Der er de forskjellige delene av loven skilt inn i div-tagger med mulighet for å fjerne de delene av dokumentet som ikke er lovtekst automatisk.

Laster det ned og ser nærmere på det.

albbas commented 10 years ago

Comment 9124

Date: 2014-02-14 10:01:28 +0100 From: Ritva Nystad <>

Nå har jeg aktivt begynt å bruke Korp og finner at det er et svært nyttig redskap. Når man søker på paralelltekster smenob og nobsme, så er ikke setningene alltid paralellisert korrekt. Her er noen eksempler:

==> Ingen må forstyrre arbeidet under skillingen . Seammaládje lea boazologu mearridemiin § 60 mielde .

http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob&page=0&search=cqp%7C%5Bword+%3D+%22forstyrre%22%5D

==> http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=sme&page=0&search=cqp%7C%5Bword+%3D+%22vuorjjai%22%5D

==> Hurtigruta legger til kai i Vadsø . 13 Fg .

http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob&search=cqp%7C%5Bword+%3D+%22kai%22%5D&page=0

osv.. [reply] [-] Comment 29

albbas commented 10 years ago

Comment 9587

Date: 2014-09-18 15:16:22 +0200 From: Trond Trosterud <>

Denne buggen er framleis med oss, og treng merksemd. Etter kvart som vi får fleire og fleire brukarar av Korp kjem den stadig opp som uparallellisert tekst.

albbas commented 9 years ago

Comment 9829

Date: 2014-11-23 21:33:01 +0100 From: Lene Antonsen <>

Denne buggen er merka med as soon as possible.. Jeg kan godt hjelpe til med manuell setningsparallellisering hvis jeg bare vet hvor jeg skal arbeide.

albbas commented 9 years ago

Comment 9846

Date: 2014-11-28 00:07:04 +0100 From: Trond Trosterud <>

Prosedyre framover:

  1. Børre diskuterer med Sjur og Cip om metodar å setje in
    ...
    , enten i xsl-fila, eller i verste fall i originalen
  2. Børre sett inn
    og konverterer på nytt, og konverterer til toktmx til html
  3. Så tar vi dugnad på å rette
albbas commented 9 years ago

Comment 9921

Date: 2014-12-23 09:27:37 +0100 From: Lene Antonsen <>

Jeg har setningsparallelisert manuelt 4 lover og sendt dem til Cip. Disse kan evt være utgangspunkt for tagging i originalteksten, men også for å se på hva man kan gjøre med filene på ett eller annet sted i prosessen. Her er flere problemer:

albbas commented 9 years ago

Comment 9957

Date: 2015-01-11 16:10:35 +0100 From: Trond Trosterud <>

Vi ser på dette no i veka.

albbas commented 9 years ago

Comment 10205

Date: 2015-02-19 13:54:28 +0100 From: Børre Gaup <>

(In reply to comment #4)

Jeg mistenker at mange av parallelliseringsfeilene kommer av at strukturen i filene er ulike (den ene har innholdsfortegnelse, den andre ikke, den samiske teksten har teksten «Láhka fápmuiboahtá 2010 ođđaj. 1.b; geahča § 68.» etter hver paragraf, etc.)

Jeg tok en titt på denne siden: http://lovdata.no/dokument/NL/lov/2009-06-19-101/2009-06-19-101

Der er de forskjellige delene av loven skilt inn i div-tagger med mulighet for å fjerne de delene av dokumentet som ikke er lovtekst automatisk.

Laster det ned og ser nærmere på det.

Da fikk jeg lastet ned dette dokumentet og lagt det inn i freecorpus (r4668).

Endringene gjort i langtech r107756 førte forbedringene som ble commitet i freecorpus r4671.