Open albbas opened 7 years ago
Date: 2017-06-14 12:00:31 +0200
From: Reetta Juntunen <
Parts of text go missing
The alignment program cuts out some parts of sentences when parallelizing, even if there's no page break or anything else to disturb. This does not happen every time, but often with pdfs. Examples:
Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.
How it should be:
Metsähallitus päätti pilotoida biodiversiteettisopimuksen 8j -artiklan mukaista Akwé: Kon ohjeistusta käyttämällä ohjeistusta yhdessä saamelaiskäräjien kanssa sopien Hammastunturin erämaa-alueen hoito- ja käyttösuunnitelman laadinnassa.
How it should be:
Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyt
How it should be:
Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km.
How it should be:
Date: 2017-06-22 14:30:25 +0200
From: Lene Antonsen <
En kikk på hva som befinner seg i originalfilene/konverterte filer:
Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.00. (Perjantaisin suljettu)
Päiväkeskus on kohtaamis- ja seurustelupaikka, jossa toimii kaksi ohjaajaa ja siellä on mahdollisuus myös ruokailuun pientä korvausta vastaan.
Risten melder om liknende problem i nob vs sma filer.
pdf: Kan det være problem knytta til konvertererens listim-tolkning?
Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon
-rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin
šiehtaiga váldit atnui rávvagiid Bátneduoddara meahcceguovllu dikšun- ja geavahanplána ráhkadeami olis. Ulbmilin lei gávdnat ođđa vugiid, mot Meahciráđđehus meahcce guovllu hálddašaneiseváldin sáhtálii dorvvastit ovdalaččage buorebut Eurohpa áidna álgoálbmoga vejolaš vuođaid váikkuhit kultuvrras mielde bargama eavttuide guovllus. Akwé: Kon -rávvagiid miel plánenproseassa lea leamaš buorre vuohki čilget sámi kultuvrra miel bargamii gullevaš
Her ser jeg ikke noe som kan forklare problemet. Den konverterte fila fra pdf, bortsett fra manglende whitespace i sme - kanksje det blir problemer med telling av setninger?: fin: käyntejä. Erämaassa on yksi kesäaikainen merkitty retkeilyreitti, Kalottireitti, jonka kokonaispituus on 800 km. Erämaassa reitti kulkee noin 40 km:n matkan. Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km. Toinen 40 km:n merkitty kelkkaura kulkee Saarikoskelta Raittijärvelle.
sme: gallestallamat.Giehtaruohttasa meahcceguovllus lea okta geasiáigásaš merkejuvvon vánddardanjohtolat, Kalohttageinnodat, man ollesguhkkodat lea 800 km. Meahcceguovllu siste dát johtolat manná sullii 40 km. Heahtás Gilbbesjávrái manni 180 km:a guhkkosaš mohtorgielkávuojáhat manná meahcceguovllu siste sullii 50 km. Nubbi 40 km:a guhkkosaš merkejuvvon mohtorgielkávuojáhat manná Sáreguoikkas Ávžžášjávrái.
Date: 2017-06-23 16:22:02 +0200
From: Lene Antonsen <
Enda et eksempel på forsvunnet tekst, men etter punktum (selv om det ser ok ut i converted) tmx/nob2sma/admin/sd/samediggi.no/nye-styremelemmer-for-nasjonalpark-og-verneomraadestyrene.html.tmx
Miljødirektoratet har den 4.6.2014 oppnevnt følgende styremedlemmer:
Blir etter sentence alignment slik:
<tu>
<tuv xml:lang="nob">
<seg>Miljødirektoratet har den 4.</seg>
</tuv>
<tuv xml:lang="sma">
<seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie nammoehtamme:</seg>
</tuv>
</tu>
Date: 2017-06-23 16:25:36 +0200
From: Lene Antonsen <
Miljødirektoratet har den 4.6.2014 oppnevnt følgende styremedlemmer:
sma: Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie nammoehtamme:
Blir etter sentence alignment slik:
<tu> <tuv xml:lang="nob"> <seg>Miljødirektoratet har den 4.</seg> </tuv> <tuv xml:lang="sma"> <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie
nammoehtamme:
Date: 2017-09-27 13:03:28 +0200
From: Lene Antonsen <
Blir etter sentence alignment slik:
<tu> <tuv xml:lang="nob"> <seg>Miljødirektoratet har den 4.</seg> </tuv> <tuv xml:lang="sma"> <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie
nammoehtamme:
Hvis nob preprosessering ikke fungerer for datoer så kan dette gi slike problemer. tca2 kan knytte en, eller to, eller tre setninger opp til en setning på det andre språket. Med oppdeling til ny setning for hvert punktum i en dato, kan det blir for mange setninger.
Date: 2017-09-27 14:17:03 +0200
From: Børre Gaup <
(In reply to Lene Antonsen from comment #4)
Blir etter sentence alignment slik:
<tu> <tuv xml:lang="nob"> <seg>Miljødirektoratet har den 4.</seg> </tuv> <tuv xml:lang="sma"> <seg>Byjresedirektovraate lea 4.6.2014 daejtie ståvroelïhtsegidie
nammoehtamme:
Hvis nob preprosessering ikke fungerer for datoer så kan dette gi slike problemer. tca2 kan knytte en, eller to, eller tre setninger opp til en setning på det andre språket. Med oppdeling til ny setning for hvert punktum i en dato, kan det blir for mange setninger.
Dette er tilknyttet bug #2427
Date: 2017-09-27 15:03:57 +0200
From: Børre Gaup <
(In reply to Reetta Juntunen from comment #0)
- main/prestable/tmx/fin2smn/admin/aanaar/paihdehuolto.html.tmx.html
How it looks like now:
Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.
Avveel Peivikuávdáš tuáimá vuossaargâst tuorâstuvvân tme 9.00 –13.00. Peivikuávdáš lii kuáhtám- já siärvástâllâmsaje, mast toimâv kyehti stivrejeijee já tobbeen lii máhđulâšvuotâ meid puurâdmân uccâ mavsuu vuástá.
How it should be:
Ivalon Päiväkeskus Valkama toimii maanantaista torstaihin klo 9.00 –13.00. (Perjantaisin suljettu) Päiväkeskus on kohtaamis- ja seurustelupaikka, jossa toimii kaksi ohjaajaa ja siellä on mahdollisuus myös ruokailuun pientä korvausta vastaan.
The problem in this file is solved in CorpusTools v0.20.9, by using hfst-tokenise --segment --print-all as the preprocessor before making sentences.
Date: 2017-09-27 15:06:19 +0200
From: Børre Gaup <
(In reply to Reetta Juntunen from comment #0)
- main/prestable/tmx/fin2sme/admin/metsa.fi/akwekonraportti2013.pdf.tmx.html (this had some other problems as well, see the commentary at: main/techdoc/tools/tca2_tests/fin2smeEvaluation_metsa.fi.txt)
How it looks like:
Metsähallitus päätti pilotoida biodiversiteettisopimuksen 8j -artiklan mukaista Akwé: Kon ohjeistusta käyttämällä ohjeistusta yhdessä saamelaiskäräjien kanssa sopien Hammastunturin erämaa-alueen hoito- ja käyttösuunnitelman laadinnassa.
Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin
How it should be:
Meahciráđđehus mearridii vuosttaš geardde destet biodiversiteahttasoahpamuša 8j-artikla miel Akwé: Kon -rávvagiid atnui váldima nu ahte dat ovttas sámedikkiin šiehtaiga váldit atnui rávvagiid Bátneduoddara meahcceguovllu dikšun- ja geavahanplána ráhkadeami olis.
How it looks like:
Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyt
Aitosaš plána ráhkadanbarggu álggus Akwé: Kon -bargojoavku čielggadii, mot rávvagat heivejit dikšun- ja geavahanplána ráhkadeapmái.
How it should be:
Varsinaisen suunnitelman laatimistyön aluksi Akwé: Kon -työryhmä selvitti, miten ohjeet soveltuvat hoito- ja käyttösuunnitelman laadintaan.
This is due to the problem described in bug #2426.
Date: 2017-09-27 15:28:37 +0200
From: Børre Gaup <
(In reply to Reetta Juntunen from comment #0)
- prestable/tmx/fin2sme/admin/metsa.fi/c39.pdf.tmx.html
How it looks like:
Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km.
Giehtaruohttasa meahcceguovllus lea okta geasiáigásaš merkejuvvon vánddardanjohtolat, Kalohttageinnodat, man ollesguhkkodat lea 800 km. Meahcceguovllu siste dát johtolat manná sullii 40 km. Heahtás Gilbbesjávrái manni 180 km:a guhkkosaš mohtorgielkávuojáhat manná meahcceguovllu siste sullii 50 km. Nubbi 40 km:a guhkkosaš merkejuvvon mohtorgielkávuojáhat manná Sáreguoikkas Ávžžášjávrái.
How it should be:
Erämaassa on yksi kesäaikainen merkitty retkeily- reitti, Kalottireitti, jonka kokonaispituus on 800 km. Erämaassa reitti kulkee noin 40 km:n matkan. Hetasta Kilpisjärvelle kulkeva 180 km:n pituinen moottorikelkkaura kulkee erämaa-alueella noin 50 km. Toinen 40 km:n merkitty kelkkaura kulkee Saarikoskelta Raittijärvelle.
This is due to the problem described in bug #2428
Date: 2017-09-27 16:53:40 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Børre Gaup from comment #6)
The problem in this file is solved in CorpusTools v0.20.9, by using hfst-tokenise --segment --print-all as the preprocessor before making sentences.
If you don't want analyses of the identified segments, then this should be ok. Otherwise hfst-tokenise --giella-cg will do the same (print everything), but now also with analyses.
This issue was created automatically with bugzilla2github
Bugzilla Bug 2405
Date: 2017-06-14T12:00:31+02:00 From: Reetta Juntunen <>
To: Børre Gaup <>
CC: borre.gaup, lene.antonsen, sjur.n.moshagen, trond.trosterud
Depends on: #2426, #2427, #2428, #2425 Last updated: 2017-09-27T16:53:40+02:00