giellalt / bugzilla-dummy

0 stars 0 forks source link

Parts of text go missing (Bugzilla Bug 2405) #187

Open albbas opened 7 years ago

albbas commented 7 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2405

Date: 2017-06-14T12:00:31+02:00 From: Reetta Juntunen <> To: Børre Gaup <> CC: borre.gaup, lene.antonsen, sjur.n.moshagen, trond.trosterud

Depends on: #2426, #2427, #2428, #2425 Last updated: 2017-09-27T16:53:40+02:00

albbas commented 7 years ago

Comment 12491

Date: 2017-06-14 12:00:31 +0200 From: Reetta Juntunen <>

Parts of text go missing

The alignment program cuts out some parts of sentences when parallelizing, even if there's no page break or anything else to disturb. This does not happen every time, but often with pdfs. Examples:

  1. main/prestable/tmx/fin2smn/admin/aanaar/paihdehuolto.html.tmx.html

How it looks like now:

Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.

Avveel Peivikuávdáš tuáimá vuossaargâst tuorâstuvvân tme 9.00 –13.00. Peivikuávdáš lii kuáhtám- já siärvástâllâmsaje, mast toimâv kyehti stivrejeijee já tobbeen lii máhđulâšvuotâ meid puurâdmân uccâ mavsuu vuástá.

How it should be:

Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.00. (Perjantaisin suljettu) Päiväkeskus on kohtaamis- ja seurustelupaikka, jossa toimii kaksi ohjaajaa ja siellä on mahdollisuus myös ruokailuun pientä korvausta vastaan.

  1. main/prestable/tmx/fin2sme/admin/metsa.fi/akwekonraportti2013.pdf.tmx.html (this had some other problems as well, see the commentary at: main/techdoc/tools/tca2_tests/fin2smeEvaluation_metsa.fi.txt)

How it looks like:

Metsähallitus päätti pilotoida biodiversiteettisopimuksen 8j -artiklan mukaista Akwé: Kon ohjeistusta käyttämällä ohjeistusta yhdessä saamelaiskäräjien kanssa sopien Hammastunturin erämaa-alueen hoito- ja käyttösuunnitelman laadinnassa.

Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin

How it should be:

Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin šiehtaiga váldit atnui rávvagiid Bátneduoddara meahcceguovllu dikšun- ja geavahanplána ráhkadeami olis.

How it looks like:

Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyt

Aitosaš plána ráhkadanbarggu álggus Akwé: Kon -bargojoavku čielggadii, mot rávvagat heivejit dikšun- ja geavahanplána ráhkadeapmái.

How it should be:

Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyttösuunnitelman laadintaan.

  1. prestable/tmx/fin2sme/admin/metsa.fi/c39.pdf.tmx.html

How it looks like:

Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km.

Giehtaruohttasa meahcceguovllus lea okta geasiáigásaš merkejuvvon vánddardanjohtolat, Kalohttageinnodat, man ollesguhkkodat lea 800 km. Meahcceguovllu siste dát johtolat manná sullii 40 km. Heahtás Gilbbesjávrái manni 180 km:a guhkkosaš mohtorgielkávuojáhat manná meahcceguovllu siste sullii 50 km. Nubbi 40 km:a guhkkosaš merkejuvvon mohtorgielkávuojáhat manná Sáreguoikkas Ávžžášjávrái.

How it should be:

Erämaassa on yksi kesäaikainen merkitty retkeily- reitti, Kalottireitti, jonka kokonaispituus on 800 km. Erämaassa reitti kulkee noin 40 km:n matkan. Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km. Toinen 40 km:n merkitty kelkkaura kulkee Saarikoskelta Raittijärvelle.

albbas commented 7 years ago

Comment 12501

Date: 2017-06-22 14:30:25 +0200 From: Lene Antonsen <>

En kikk på hva som befinner seg i originalfilene/konverterte filer:

  1. htmlfiler: Kan problemet være knytta til ?

    Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.00. (Perjantaisin suljettu)
    Päiväkeskus on kohtaamis- ja seurustelupaikka, jossa toimii kaksi ohjaajaa ja siellä on mahdollisuus myös ruokailuun pientä korvausta vastaan.

Risten melder om liknende problem i nob vs sma filer.

  1. pdf: Kan det være problem knytta til konvertererens listim-tolkning?

    Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon

    -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin

    šiehtaiga váldit atnui rávvagiid Bátneduoddara meahcceguovllu dikšun- ja geavahanplána ráhkadeami olis. Ulbmilin lei gávdnat ođđa vugiid, mot Meahciráđđehus meahcce guovllu hálddašaneiseváldin sáhtálii dorvvastit ovdalaččage buorebut Eurohpa áidna álgoálbmoga vejolaš vuođaid váikkuhit kultuvrras mielde bargama eavttuide guovllus. Akwé: Kon -rávvagiid miel plánenproseassa lea leamaš buorre vuohki čilget sámi kultuvrra miel bargamii gullevaš

  2. Her ser jeg ikke noe som kan forklare problemet. Den konverterte fila fra pdf, bortsett fra manglende whitespace i sme - kanksje det blir problemer med telling av setninger?: fin: käyntejä. Erämaassa on yksi kesäaikainen merkitty retkeilyreitti, Kalottireitti, jonka kokonaispituus on 800 km. Erämaassa reitti kulkee noin 40 km:n matkan. Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km. Toinen 40 km:n merkitty kelkkaura kulkee Saarikoskelta Raittijärvelle.

sme: gallestallamat.Giehtaruohttasa meahcceguovllus lea okta geasiáigásaš merkejuvvon vánddardanjohtolat, Kalohttageinnodat, man ollesguhkkodat lea 800 km. Meahcceguovllu siste dát johtolat manná sullii 40 km. Heahtás Gilbbesjávrái manni 180 km:a guhkkosaš mohtorgielkávuojáhat manná meahcceguovllu siste sullii 50 km. Nubbi 40 km:a guhkkosaš merkejuvvon mohtorgielkávuojáhat manná Sáreguoikkas Ávžžášjávrái.

albbas commented 7 years ago

Comment 12503

Date: 2017-06-23 16:22:02 +0200 From: Lene Antonsen <>

Enda et eksempel på forsvunnet tekst, men etter punktum (selv om det ser ok ut i converted) tmx/nob2sma/admin/sd/samediggi.no/nye-styremelemmer-for-nasjonalpark-og-verneomraadestyrene.html.tmx

Miljødirektoratet har den 4.6.2014 oppnevnt følgende styremedlemmer:

Blir etter sentence alignment slik:

<tu>
  <tuv xml:lang="nob">
    <seg>Miljødirektoratet har den 4.</seg>
  </tuv>
  <tuv xml:lang="sma">
    <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie nammoehtamme:</seg>
  </tuv>
</tu>
albbas commented 7 years ago

Comment 12504

Date: 2017-06-23 16:25:36 +0200 From: Lene Antonsen <>

Miljødirektoratet har den 4.6.2014 oppnevnt følgende styremedlemmer:

sma: Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie nammoehtamme:

Blir etter sentence alignment slik:

<tu>
  <tuv xml:lang="nob">
    <seg>Miljødirektoratet har den 4.</seg>
  </tuv>
  <tuv xml:lang="sma">
    <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie

nammoehtamme:

albbas commented 7 years ago

Comment 12609

Date: 2017-09-27 13:03:28 +0200 From: Lene Antonsen <>

Blir etter sentence alignment slik:

<tu>
  <tuv xml:lang="nob">
    <seg>Miljødirektoratet har den 4.</seg>
  </tuv>
  <tuv xml:lang="sma">
    <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie

nammoehtamme:

Hvis nob preprosessering ikke fungerer for datoer så kan dette gi slike problemer. tca2 kan knytte en, eller to, eller tre setninger opp til en setning på det andre språket. Med oppdeling til ny setning for hvert punktum i en dato, kan det blir for mange setninger.

albbas commented 7 years ago

Comment 12612

Date: 2017-09-27 14:17:03 +0200 From: Børre Gaup <>

(In reply to Lene Antonsen from comment #4)

Blir etter sentence alignment slik:

<tu>
  <tuv xml:lang="nob">
    <seg>Miljødirektoratet har den 4.</seg>
  </tuv>
  <tuv xml:lang="sma">
    <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie

nammoehtamme:

Hvis nob preprosessering ikke fungerer for datoer så kan dette gi slike problemer. tca2 kan knytte en, eller to, eller tre setninger opp til en setning på det andre språket. Med oppdeling til ny setning for hvert punktum i en dato, kan det blir for mange setninger.

Dette er tilknyttet bug #2427

albbas commented 7 years ago

Comment 12613

Date: 2017-09-27 15:03:57 +0200 From: Børre Gaup <>

(In reply to Reetta Juntunen from comment #0)

  1. main/prestable/tmx/fin2smn/admin/aanaar/paihdehuolto.html.tmx.html

How it looks like now:

Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.

Avveel Peivikuávdáš tuáimá vuossaargâst tuorâstuvvân tme 9.00 –13.00. Peivikuávdáš lii kuáhtám- já siärvástâllâmsaje, mast toimâv kyehti stivrejeijee já tobbeen lii máhđulâšvuotâ meid puurâdmân uccâ mavsuu vuástá.

How it should be:

Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.00. (Perjantaisin suljettu) Päiväkeskus on kohtaamis- ja seurustelupaikka, jossa toimii kaksi ohjaajaa ja siellä on mahdollisuus myös ruokailuun pientä korvausta vastaan.

The problem in this file is solved in CorpusTools v0.20.9, by using hfst-tokenise --segment --print-all as the preprocessor before making sentences.

albbas commented 7 years ago

Comment 12614

Date: 2017-09-27 15:06:19 +0200 From: Børre Gaup <>

(In reply to Reetta Juntunen from comment #0)

  1. main/prestable/tmx/fin2sme/admin/metsa.fi/akwekonraportti2013.pdf.tmx.html (this had some other problems as well, see the commentary at: main/techdoc/tools/tca2_tests/fin2smeEvaluation_metsa.fi.txt)

How it looks like:

Metsähallitus päätti pilotoida biodiversiteettisopimuksen 8j -artiklan mukaista Akwé: Kon ohjeistusta käyttämällä ohjeistusta yhdessä saamelaiskäräjien kanssa sopien Hammastunturin erämaa-alueen hoito- ja käyttösuunnitelman laadinnassa.

Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin

How it should be:

Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin šiehtaiga váldit atnui rávvagiid Bátneduoddara meahcceguovllu dikšun- ja geavahanplána ráhkadeami olis.

How it looks like:

Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyt

Aitosaš plána ráhkadanbarggu álggus Akwé: Kon -bargojoavku čielggadii, mot rávvagat heivejit dikšun- ja geavahanplána ráhkadeapmái.

How it should be:

Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyttösuunnitelman laadintaan.

This is due to the problem described in bug #2426.

albbas commented 7 years ago

Comment 12616

Date: 2017-09-27 15:28:37 +0200 From: Børre Gaup <>

(In reply to Reetta Juntunen from comment #0)

  1. prestable/tmx/fin2sme/admin/metsa.fi/c39.pdf.tmx.html

How it looks like:

Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km.

Giehtaruohttasa meahcceguovllus lea okta geasiáigásaš merkejuvvon vánddardanjohtolat, Kalohttageinnodat, man ollesguhkkodat lea 800 km. Meahcceguovllu siste dát johtolat manná sullii 40 km. Heahtás Gilbbesjávrái manni 180 km:a guhkkosaš mohtorgielkávuojáhat manná meahcceguovllu siste sullii 50 km. Nubbi 40 km:a guhkkosaš merkejuvvon mohtorgielkávuojáhat manná Sáreguoikkas Ávžžášjávrái.

How it should be:

Erämaassa on yksi kesäaikainen merkitty retkeily- reitti, Kalottireitti, jonka kokonaispituus on 800 km. Erämaassa reitti kulkee noin 40 km:n matkan. Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km. Toinen 40 km:n merkitty kelkkaura kulkee Saarikoskelta Raittijärvelle.

This is due to the problem described in bug #2428

albbas commented 7 years ago

Comment 12618

Date: 2017-09-27 16:53:40 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Børre Gaup from comment #6)

The problem in this file is solved in CorpusTools v0.20.9, by using hfst-tokenise --segment --print-all as the preprocessor before making sentences.

If you don't want analyses of the identified segments, then this should be ok. Otherwise hfst-tokenise --giella-cg will do the same (print everything), but now also with analyses.