giellalt / bugzilla-dummy

0 stars 0 forks source link

Feil konvertering av nordsamisk bokstaver i korpus (Bugzilla Bug 1954) #133

Open albbas opened 9 years ago

albbas commented 9 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1954

Date: 2015-01-15T13:29:07+01:00 From: Lene Antonsen <> To: Børre Gaup <> CC: ailu.west.92, ciprian.gerstenberger, sjur.n.moshagen, trond.trosterud

Last updated: 2016-09-30T00:43:23+02:00

albbas commented 9 years ago

Comment 9983

Date: 2015-01-15 13:29:07 +0100 From: Lene Antonsen <>

Feil konvertering av nordsamisk bokstaver i science-korpus:

đ > ÿ č > þ ŋ > ƾ

i dette dokumentet:

boundcorpus/converted/sme/science/allaskuvla/publications/diedut/Diedut_2007_3_bokblokka.pdf.xml

albbas commented 9 years ago

Comment 9986

Date: 2015-01-15 13:38:25 +0100 From: Lene Antonsen <>

Dette gjelder også disse dokumentene:

sust/sust253_ijas.pdf.xml

Dessuten: ŧ > Lj

albbas commented 9 years ago

Comment 10033

Date: 2015-01-29 11:54:37 +0100 From: Trond Trosterud <>

Eg konverterer no science-korpus på gtlab, og får eit anna resultat enn Lene. Mitt resultat er at samtlege filer i science får denne beskjeden:

Could not convert orig/sme/science/allaskuvla/publications/diedut/diedut_2007_3_bokblokka.pdf

Heller enn at samtlege forskarar har lagra pdf-filene sine feil ser det ut for meg til at feilen må vere ein annan stad.

Og i loggen står det:

:0:0:ERROR:XSLT:ERR_OK: Variable 'multilingual' has not been declared. Det er rett nok det, i xsl-templatet er det ingen slik variabel. Ergo tenkjer eg: her har vi versjonskrasj mellom ulike xsl-filer Så slettar eg xsl-fila, konverterer på nytt, fyller ut variablane, og får denne meldinga: Fill in meta info in diedut_2007_3_bokblokka.pdf.xsl , then run this command again diedut>em diedut_2007_3_bokblokka.pdf.xsl diedut>convert2xml diedut_2007_3_bokblokka.pdf Traceback (most recent call last): File "/usr/bin/convert2xml", line 9, in load_entry_point('CorpusTools==0.7.8', 'console_scripts', 'convert2xml')() File "/usr/lib/python2.7/site-packages/CorpusTools-0.7.8-py2.7.egg/corpustools/converter.py", line 1837, in main worker(xsl_file) File "/usr/lib/python2.7/site-packages/CorpusTools-0.7.8-py2.7.egg/corpustools/converter.py", line 1787, in worker conv.write_complete() File "/usr/lib/python2.7/site-packages/CorpusTools-0.7.8-py2.7.egg/corpustools/converter.py", line 211, in write_complete complete = self.make_complete() File "/usr/lib/python2.7/site-packages/CorpusTools-0.7.8-py2.7.egg/corpustools/converter.py", line 196, in make_complete self.validate_complete(complete) File "/usr/lib/python2.7/site-packages/CorpusTools-0.7.8-py2.7.egg/corpustools/converter.py", line 111, in validate_complete dtd = etree.DTD(os.path.join(os.getenv('GTHOME'), 'gt/dtd/corpus.dtd')) File "dtd.pxi", line 294, in lxml.etree.DTD.__init__ (src/lxml/lxml.etree.c:164400) lxml.etree.DTDParseError: error parsing DTD diedut>
albbas commented 9 years ago

Comment 10034

Date: 2015-01-29 12:52:50 +0100 From: Lene Antonsen <>

(In reply to comment #2)

Eg konverterer no science-korpus på gtlab, og får eit anna resultat enn Lene.

Presisering: jeg har kun sett på filene i converted, jeg har ikke konvertert sjøl.

albbas commented 9 years ago

Comment 10041

Date: 2015-01-31 15:55:37 +0100 From: Trond Trosterud <>

Eg konverterer no på Mac, med siste CorpusTools, og får desse resultata:

SDÁ: 2006-årgangen er konvertert feil (ein bokstav på kvar linje), men dei andre ser fin ut. Ser eg på pdf-en er det eit bliete der. sust/sust253..: Her er dei samiske bokstavane koda utanfor Unicode, eg får ikkje opp talverdiar for dei i det heile. diedut2007: Her får eg mellomrom for desse samiske teikna.

Konklusjonen på dette er for meg at vi fjernar sda2006 , diedut2007 og sust253 frå korpuset (eller merkar dei med "ikkje konverter"). Den dagen vi er ajour med andre delar av korpusinnsamlinga kan vi evt. skanne desse sjølv, og vi kan melde i frå at dei er feil.

albbas commented 9 years ago

Comment 10042

Date: 2015-01-31 18:31:15 +0100 From: Lene Antonsen <>

Konklusjonen på dette er for meg at vi fjernar sda2006 , diedut2007 og sust253 frå korpuset (eller merkar dei med "ikkje konverter"). Den dagen vi er ajour med andre delar av korpusinnsamlinga kan vi evt. skanne desse sjølv, og vi kan melde i frå at dei er feil.

Her er en av SDA 2006-artiklene: http://site.uit.no/aigecala/files/2013/03/2006-ylikoski.pdf Bare ordene som er skrevet med kursiv, er søkbare, og det er de ordene som er lesbare i konverterbare. Jeg skal skrive mail om dette til redaksjonen, kanskje de skanner på nytt.

albbas commented 9 years ago

Comment 10043

Date: 2015-01-31 18:47:54 +0100 From: Lene Antonsen <>

Her er en av SDA 2006-artiklene: http://site.uit.no/aigecala/files/2013/03/2006-ylikoski.pdf Bare ordene som er skrevet med kursiv, er søkbare, og det er de ordene som er lesbare i konverterbare. Jeg skal skrive mail om dette til redaksjonen, kanskje de skanner på nytt.

Sendte epost til SDA-redaksjonen i dag.

albbas commented 9 years ago

Comment 10044

Date: 2015-01-31 19:19:58 +0100 From: Lene Antonsen <>

Sendte epost til SDA-redaksjonen i dag. Det kom ny pdf-fil med alle artiklene i samme fil. Den er nå sendt til Ciprian. Jeg regner med at han har program for å kutte fila opp i artikler?

albbas commented 9 years ago

Comment 10048

Date: 2015-02-02 15:19:22 +0100 From: Lene Antonsen <>

(In reply to comment #0)

Feil konvertering av nordsamisk bokstaver i science-korpus:

đ > ÿ č > þ ŋ > ƾ

i disse:

allaskuvla/publications/diedut/Diedut_2007_3_bokblokka.pdf.xml allaskuvla/publications/diedut/diedut_2009_1_samlet_20091015.pdf.xml sust/sust253_ijas.pdf.xml

albbas commented 9 years ago

Comment 10049

Date: 2015-02-02 15:25:00 +0100 From: Lene Antonsen <>

(In reply to comment #8)

(In reply to comment #0)

Feil konvertering av nordsamisk bokstaver i science-korpus:

đ > ÿ č > þ ŋ > ƾ

i disse:

allaskuvla/publications/diedut/Diedut_2007_3_bokblokka.pdf.xml allaskuvla/publications/diedut/diedut_2009_1_samlet_20091015.pdf.xml sust/sust253_ijas.pdf.xml

Jeg regner med at disse burde være mulige å konvertere riktig, siden de er 1:1 ? Eller skal vi be om nye dokumenter?

albbas commented 9 years ago

Comment 10050

Date: 2015-02-02 15:35:37 +0100 From: Børre Gaup <>

(In reply to comment #9)

(In reply to comment #8)

(In reply to comment #0)

Feil konvertering av nordsamisk bokstaver i science-korpus:

đ > ÿ č > þ ŋ > ƾ

i disse:

allaskuvla/publications/diedut/Diedut_2007_3_bokblokka.pdf.xml allaskuvla/publications/diedut/diedut_2009_1_samlet_20091015.pdf.xml sust/sust253_ijas.pdf.xml

Jeg regner med at disse burde være mulige å konvertere riktig, siden de er 1:1 ? Eller skal vi be om nye dokumenter?

Om det bare er i disse tre dokumentene slike feil oppstår, er det aller enkleste å skrive en erstatningsregel i metadatafila.

Eksempelvis for diedut_2009_1_samlet_20091015.pdf.xsl: Fjern kommentartegnene på linje 128 og 153.

Erstatt disse to linjene:

        <xsl:with-param name="target" select="'str1/str2/str3/'"/>
        <xsl:with-param name="replacement" select="'rpl1/rpl2/rpl3/'"/>

med:

        <xsl:with-param name="target" select="'ÿ/þ/ƾ/'"/>
        <xsl:with-param name="replacement" select="'đ/č/ŋ/'"/>
albbas commented 9 years ago

Comment 10051

Date: 2015-02-02 15:44:05 +0100 From: Trond Trosterud <>

Eg endra xsl-fila etter Börre sitt råd, og pröve å konvertere. Problem: Det vart ikkje retta. Det stemmer med mi erfaring: Det er ikkje ÿ/þ/ƾ/ vi har å gjere med, men U+0000 og U+000A.

Spörsmålet til börre er dermed: Kva maskin skal eg teste på?

albbas commented 9 years ago

Comment 10053

Date: 2015-02-02 16:21:02 +0100 From: Trond Trosterud <>

Etter diskusjon med børre har eg funne ei maskin (xserve) der oppsettet fungerer. Der fungerer no dieđut2007:

Boazu guohtu iešguđetlágán

albbas commented 9 years ago

Comment 10401

Date: 2015-03-23 00:36:20 +0100 From: Lene Antonsen <>

Jeg forstår ikke helt hva som er gjort eller ikke i denne saka, men ihvertfall så er det ting som ikke fungerer fremdeles i nyeste konvertering på divvun serveren (datert 13. mars): boundcorpus/converted/sme/science/allaskuvla/publications/diedut

I diedut_2009_1_samlet_20091015 er det gjennomgående problemer med samiske bokstaver, veldig ofte blir ordene blir delt foran samiske boktaver: rá đi, Árbbola ččat , men også andre litt rarere: guovttelága nat... Dessuten blir ŧ til Lj og Č til ý

Trilogiija nubbi oassi oa

ččui Sámiráđi girjjálaš

<p xml:lang="smj">vuo</p>
<p>đa bálkkašumi 2003:s. ....
<p>riikkaid rá</p>
<p>đi girjjálašvuođa bálkkašupmái ja lea jorgaluvvon ruoLjagillii</p>
<p>ýálli lea Roavesavvonis eret, Suoma bealde Deanu</p>
 <p xml:lang="smn">Ma</p>
<p>il go Vest čálii guokte romána mat eai leat čadnojuvvon mange sámi</p>
<p>birrasii, de lea son <em type="italic">Árbbola</em></p>
<p><em type="italic">ččat</em>-ráidduin fas máhccan ruovttuguovllu birra-</p>

.....

<p>čájeha. ýállinmeattáhusat sáhttet leat guovttelága</p>
<p xml:lang="kal">nat:</p>
<p>časkinfeaillat ja sojahanfeaillat. ýaskinfeaillat leat dakkárat ahte oah</p>
<p>pahalli lea vahágis deaddilan boasttu boalu, dahje njulgestaga ii máhte</p>
<p>čál</p>
<p>lit sáni riekta.</p>
<p>ýielga časkinfeaillaid ovdamearkkat leat vuosttaš stávvala <em type="italic">a</

Også i diedut_2007_3_bokblokka.pdf.xml:

    bargguid seammaláhkái. Leat  die</p>
<p>đusge maiddái oktasaš barggut nu guhká go boazodoallu jođihuvvo árbe</p>
<p xml:lang="fin">virola</p>
<p>ččat, mas ovdamearkka dihtii johtolatstruktuvrrat ja sosiála organiseremat</p>

árbevirolaš málle mielde, nugo ovdamearkka dihtii johtit, guo

đohit, mearkut, ávnnastit ja duddjot. Go leat

<p xml:lang="smj">8 má</p>
<p>ggat iešguđetgelágán doaimmat, de gáibiduvvo máhttoviidodat mii ii leat</p>
<p>dušše ovtta olbmo duohken dan ollašuhttit. Muhto go leat bearraša olbmot geain  leat iešgu</p>
<p>đetlágán máhtut, de dat ovttas devdet boazodoalu dárbbuid. Nisson</p>
<p>olbmuin lea omd. má</p>
<p>gii eará doaibma go almmáiolbmuin, ja nu šaddetge sis</p>
albbas commented 9 years ago

Comment 10404

Date: 2015-03-23 11:01:17 +0100 From: Trond Trosterud <>

(In reply to comment #13)

Jeg forstår ikke helt hva som er gjort eller ikke i denne saka, men ihvertfall  ... I diedut_2009_1_samlet_20091015 er det gjennomgående problemer med samiske bokstaver, veldig ofte blir ordene blir delt foran samiske boktaver: rá đi, Dessuten blir ŧ til Lj og Č til ý

Eg har no utvida dei relevante linjene i

diedut_2009_1_samlet_20091015.pdf.xsl

til

        <xsl:with-param name="replacement" select="'đ/Č/č/ŋ/ŧ/'"/>

Dessverre får eg ikkje testa det, sidan det er ein annan bug med testing på gtlab, men det burde altså fungere no.

Den andre feilen (med mellomrom) må vi sjå på. Der bokstavar blir til mellomrom har vi tapt, men som regel skjer det meir. I dine eksempel blir det sett inn eit mellomrom, i alle fall bör det vere mogleg å fjerne mellomrom foran đ og čč, det må vi sjå på.

Konverteringsfeilen eg får på gtlab er:

File "/usr/lib/python2.7/site-packages/CorpusTools-0.9.0alpha2-py2.7.egg/corpustools/converter.py", line 2032, in main analyser.sanity_check([u'wvHtml', u'pdftotext']) AttributeError: 'module' object has no attribute 'sanity_check'

Börre, har du synspunkt på det?

albbas commented 9 years ago

Comment 10406

Date: 2015-03-23 20:06:13 +0100 From: Børre Gaup <>

(In reply to comment #14)

(In reply to comment #13)

Jeg forstår ikke helt hva som er gjort eller ikke i denne saka, men ihvertfall  ... I diedut_2009_1_samlet_20091015 er det gjennomgående problemer med samiske bokstaver, veldig ofte blir ordene blir delt foran samiske boktaver: rá đi, Dessuten blir ŧ til Lj og Č til ý

Eg har no utvida dei relevante linjene i

diedut_2009_1_samlet_20091015.pdf.xsl

til

        <xsl:with-param name="replacement" select="'đ/Č/č/ŋ/ŧ/'"/>

Dessverre får eg ikkje testa det, sidan det er ein annan bug med testing på gtlab, men det burde altså fungere no.

Den andre feilen (med mellomrom) må vi sjå på. Der bokstavar blir til mellomrom har vi tapt, men som regel skjer det meir. I dine eksempel blir det sett inn eit mellomrom, i alle fall bör det vere mogleg å fjerne mellomrom foran đ og čč, det må vi sjå på.

Konverteringsfeilen eg får på gtlab er:

File "/usr/lib/python2.7/site-packages/CorpusTools-0.9.0alpha2-py2.7.egg/corpustools/converter.py", line 2032, in main analyser.sanity_check([u'wvHtml', u'pdftotext']) AttributeError: 'module' object has no attribute 'sanity_check'

Börre, har du synspunkt på det?

CorpusTools er oppe i 0.9.0b4 nå. Prøv å installere den først, mulig den feilen blir borte.

albbas commented 9 years ago

Comment 10407

Date: 2015-03-23 20:09:20 +0100 From: Børre Gaup <>

(In reply to comment #15)

(In reply to comment #14)

(In reply to comment #13)

Jeg forstår ikke helt hva som er gjort eller ikke i denne saka, men ihvertfall  ... I diedut_2009_1_samlet_20091015 er det gjennomgående problemer med samiske bokstaver, veldig ofte blir ordene blir delt foran samiske boktaver: rá đi, Dessuten blir ŧ til Lj og Č til ý

Eg har no utvida dei relevante linjene i

diedut_2009_1_samlet_20091015.pdf.xsl

til

        <xsl:with-param name="replacement" select="'đ/Č/č/ŋ/ŧ/'"/>

Dessverre får eg ikkje testa det, sidan det er ein annan bug med testing på gtlab, men det burde altså fungere no.

Den andre feilen (med mellomrom) må vi sjå på. Der bokstavar blir til mellomrom har vi tapt, men som regel skjer det meir. I dine eksempel blir det sett inn eit mellomrom, i alle fall bör det vere mogleg å fjerne mellomrom foran đ og čč, det må vi sjå på.

Konverteringsfeilen eg får på gtlab er:

File "/usr/lib/python2.7/site-packages/CorpusTools-0.9.0alpha2-py2.7.egg/corpustools/converter.py", line 2032, in main analyser.sanity_check([u'wvHtml', u'pdftotext']) AttributeError: 'module' object has no attribute 'sanity_check'

Börre, har du synspunkt på det?

CorpusTools er oppe i 0.9.0b4 nå. Prøv å installere den først, mulig den feilen blir borte.

Installerte 0.9.0b4 nå.

albbas commented 9 years ago

Comment 10409

Date: 2015-03-23 21:26:05 +0100 From: Trond Trosterud <>

... dessverre til liten nytte:

boundcorpus>corpus2xml orig/sme/science/allaskuvla/publications/diedut/diedut_2009_1_samlet_20091015.pdf bash: corpus2xml: command not found... boundcorpus>convert2xml orig/sme/science/allaskuvla/publications/diedut/diedut_2009_1_samlet_20091015.pdf Traceback (most recent call last): File "/usr/local/bin/convert2xml", line 9, in load_entry_point('CorpusTools==0.9.0alpha2', 'console_scripts', 'convert2xml')() File "/usr/lib/python2.7/site-packages/CorpusTools-0.9.0alpha2-py2.7.egg/corpustools/converter.py", line 2032, in main analyser.sanity_check([u'wvHtml', u'pdftotext']) AttributeError: 'module' object has no attribute 'sanity_check'

albbas commented 9 years ago

Comment 10410

Date: 2015-03-23 21:30:16 +0100 From: Lene Antonsen <>

 <p xml:lang="smn">Ma</p>
<p>il go Vest čálii guokte romána mat eai leat čadnojuvvon mange sámi</p>

<p xml:lang="smj">8 má</p>
<p>ggat iešguđetgelágán doaimmat, de gáibiduvvo máhttoviidodat mii ii

<p>olbmuin lea omd. má</p>
<p>gii eará doaibma go almmáiolbmuin, ja nu šaddetge sis</p>

Et problem,til , fremdeles diedut_2009_1_samlet_20091015:

ŋ forsvinner, og medfører bare orddeling (blir til mellomrom?)

albbas commented 9 years ago

Comment 10411

Date: 2015-03-23 22:21:41 +0100 From: Trond Trosterud <>

Eg konverterte no lokalt (på gtlab fungerer konverteringsverktya so sagt framleis ikkje). Lokalt konverterer convert2xml fint, men sök-erstatt fungerer ikkje for Lj og ý, sjölv om dei altså står i xsl-fila:

        <xsl:with-param name="target" select="'ÿ/ý/þ/ƾ/Lj/'"/>
        <xsl:with-param name="replacement" select="'đ/Č/č/ŋ/ŧ/'"/>

så vi får RuoLja, ýoakkáldagas pro Ruoŧa, Čoakkáldagas

albbas commented 9 years ago

Comment 10595

Date: 2015-08-13 16:30:34 +0200 From: Lene Antonsen <>

Jeg har sett på sme-analysen på divvunserveren: hoavda/Public/corp/analysed/2015-06-24

cat sme_*dep |grep '\? \@' |cut -d '"' -f2 |sort | uniq -c |sort -nr > frekvmissings.txt

Det er flere problemer: grep 'Ü' |wc -l 19605

eks. 700 oktavuoÜas 402 oÜÜa 366 vuoÜul 288 SámediggeráÜi 240 vuoÜÜun 239 SámediggeráÜÜi

Til sammenlikning er det i forrige kjøing (2015-03-20): cat sme*dep | grep 'Ü' |wc -l 14291

=> problemet er blitt større. Økningen kan være kommet pga av nye tekster som er lagt til korpuset siden sist (eller er det mulig at noe galt har skjedd?)

Her er også problemer med andre samiske bokstaver, f.eks. 277 LŠnsman 245 ValkeapŠŠ 205 NŠkkŠlŠjŠrvi ( Länsman, Valkeapää, Näkkäläjärvi )

dette skal være ŋ: 173 ma¹¹á 89 ma¹imuš

Dette er muligens ž? 271 ¿it 235 ¿¿ut

Dette er muligens é ? 98 AndrŽ

albbas commented 9 years ago

Comment 10597

Date: 2015-08-13 17:19:35 +0200 From: Lene Antonsen <>

test på om denne går ut som mail

albbas commented 9 years ago

Comment 10598

Date: 2015-08-13 17:21:40 +0200 From: Lene Antonsen <>

og enda en test

albbas commented 9 years ago

Comment 10660

Date: 2015-09-08 16:08:54 +0200 From: Lene Antonsen <>

Hvordan går det med denne? Vi ønsker å fornye innholdet i Korp, men det hadde vært greit å få fikset dette først siden det er snakk om store tall.

albbas commented 9 years ago

Comment 10664

Date: 2015-09-08 23:59:36 +0200 From: Børre Gaup <>

(In reply to Lene Antonsen from comment #20)

Jeg har sett på sme-analysen på divvunserveren: hoavda/Public/corp/analysed/2015-06-24

cat sme_*dep |grep '\? \@' |cut -d '"' -f2 |sort | uniq -c |sort -nr > frekvmissings.txt

Jeg lager en lignende frekvmissings.txt med kommandoen: ccat -dep /Users/hoavda/Public/corp/*corpus/analysed/2015-09-08|grep '\? \@' |cut -d '"' -f2 |sort | uniq -c |sort -nr > frekvmissings.txt

Det er flere problemer: grep 'Ü' |wc -l 19605

ccat -dep /Users/hoavda/Public/corp/*corpus/analysed/2015-09-08|grep 'Ü'|wc -l 6803

eks. 700 oktavuoÜas 402 oÜÜa 366 vuoÜul 288 SámediggeráÜi 240 vuoÜÜun 239 SámediggeráÜÜi

Utdrag fra frekvmissings.txt som ble laget ovenfor: 227 oktavuoÜas 165 oÜÜa 122 vuoÜul 140 SámediggeráÜi 46 vuoÜÜun 119 SámediggeráÜÜi

Til sammenlikning er det i forrige kjøing (2015-03-20): cat sme*dep | grep 'Ü' |wc -l 14291

=> problemet er blitt større. Økningen kan være kommet pga av nye tekster som er lagt til korpuset siden sist (eller er det mulig at noe galt har skjedd?)

Her er også problemer med andre samiske bokstaver, f.eks. 277 LŠnsman 245 ValkeapŠŠ 205 NŠkkŠlŠjŠrvi ( Länsman, Valkeapää, Näkkäläjärvi )

Dette skal være fikset i langtech commit r120566

dette skal være ŋ: 173 ma¹¹á 89 ma¹imuš

68 ma¹¹á 44 ma¹imuš

Dette er muligens ž? 271 ¿it 235 ¿¿ut

Dette er muligens é ? 98 AndrŽ

Denne skal være fikset i samme commit som ovenfor.

Så alt som alt er det bedre enn det det var i sommer, selv om det ikke er perfekt.

albbas commented 9 years ago

Comment 10671

Date: 2015-09-09 12:52:44 +0200 From: Børre Gaup <>

(In reply to Børre Gaup from comment #24)

(In reply to Lene Antonsen from comment #20)

Jeg har sett på sme-analysen på divvunserveren: hoavda/Public/corp/analysed/2015-06-24

cat sme_*dep |grep '\? \@' |cut -d '"' -f2 |sort | uniq -c |sort -nr > frekvmissings.txt

Jeg lager en lignende frekvmissings.txt med kommandoen: ccat -dep /Users/hoavda/Public/corp/*corpus/analysed/2015-09-08|grep '\? \@' |cut -d '"' -f2 |sort | uniq -c |sort -nr > frekvmissings.txt

Det er flere problemer: grep 'Ü' |wc -l 19605

ccat -dep /Users/hoavda/Public/corp/*corpus/analysed/2015-09-08|grep 'Ü'|wc -l 6803

eks. 700 oktavuoÜas 402 oÜÜa 366 vuoÜul 288 SámediggeráÜi 240 vuoÜÜun 239 SámediggeráÜÜi

Utdrag fra frekvmissings.txt som ble laget ovenfor: 227 oktavuoÜas 165 oÜÜa 122 vuoÜul 140 SámediggeráÜi 46 vuoÜÜun 119 SámediggeráÜÜi

Kilden til disse feilene er to dokument:

freecorpus/orig/sme/admin/sd/other_files/dc_98_3.doc freecorpus/orig/sme/admin/sd/other_files/dc_99_2.doc

Til sammenlikning er det i forrige kjøing (2015-03-20): cat sme*dep | grep 'Ü' |wc -l 14291

=> problemet er blitt større. Økningen kan være kommet pga av nye tekster som er lagt til korpuset siden sist (eller er det mulig at noe galt har skjedd?)

Her er også problemer med andre samiske bokstaver, f.eks. 277 LŠnsman 245 ValkeapŠŠ 205 NŠkkŠlŠjŠrvi ( Länsman, Valkeapää, Näkkäläjärvi )

Dette skal være fikset i langtech commit r120566

dette skal være ŋ: 173 ma¹¹á 89 ma¹imuš

68 ma¹¹á 44 ma¹imuš

og disse to stammer og fra de ovennevnte dokumentene.

Disse to dokumentene blir korrekt konvertert etter langtech commit r120615

Dette er muligens ž? 271 ¿it 235 ¿¿ut

Dette er muligens é ? 98 AndrŽ

Denne skal være fikset i samme commit som ovenfor.

Så alt som alt er det bedre enn det det var i sommer, selv om det ikke er perfekt.

albbas commented 9 years ago

Comment 10759

Date: 2015-09-22 00:48:53 +0200 From: Lene Antonsen <>

I siste analyse 2015-09-20:

227 oktavuoÜas

mot tidligere: 700 oktavuoÜas

albbas commented 9 years ago

Comment 10760

Date: 2015-09-22 13:26:15 +0200 From: Børre Gaup <>

(In reply to Lene Antonsen from comment #26)

I siste analyse 2015-09-20:

227 oktavuoÜas

mot tidligere: 700 oktavuoÜas

freecorpus r5056 burde hjelpe

albbas commented 8 years ago

Comment 11455

Date: 2016-09-29 13:48:05 +0200 From: Lene Antonsen <>

Jeg fortsetter på denne bz, siden det kan være bra å ha historikk på arbeidet som gjøres.

oktavuoÜas er i siste grepkorpus øverst på missing lista, og den har nå økt(!?) til 394. Disse dokumentene har problemer i hele teksten med bokstaven đ og får dermed ikke en brukbar analyse. f.eks. DieÜáhus guoská ráÜi doaimmaide

342 oktavuoÜas finnes i disse to dokumentene:

sd/plenum_no/dc1998_4.doc.xml sd/plenum_no/dc1999_1.doc.xml

I disse to dokumentene er det 2224 linjer som inneholder Ü, så Ü=đ ville bety en kraftig forbedring av analysen.

albbas commented 8 years ago

Comment 11456

Date: 2016-09-29 14:42:45 +0200 From: Lene Antonsen <>

Neste problem på missinglist er konverteringa av ž. Det dukker opp på lista som 229 ieas [iežas]. Jeg finner 189 av ieas-ordet i disse dokumentene:

sd/other_files/ekl2011-1.pdf.xml sd/plenum_no/dc2011-1.pdf.xml og dokumentene i sd/www.samediggi.fi/

Det som er rart, er at i sd/other_files/ekl2011-1.pdf.xml og sd/plenum_no/dc2011-1.pdf.xml blir de fleste ž blir som de skal, sjøl om iežas blir ieas : sd/other_files/ekl2011-1.pdf.xml:

2. Sámediggi ávžžuha Eanandoallodepartemeantta láhččit dilálašvuođaid dasa ahte dát viiddes muddemat eanadoalus loahpahuvvojit, ja juohke okta ealáhusdoalli eanadoalus oažžu vejolašvuođa heivehit ieas ođđa dillái ja márkanii nu ahte sii eai dárbbaš nu ollu almmolaš doarjagiid.

Men i dokumentene i sd/www.samediggi.fi/ forsvinner alle ž, f.eks. oaut [oažžut]

albbas commented 8 years ago

Comment 11457

Date: 2016-09-29 18:20:36 +0200 From: Børre Gaup <>

(In reply to Lene Antonsen from comment #28)

Jeg fortsetter på denne bz, siden det kan være bra å ha historikk på arbeidet som gjøres.

oktavuoÜas er i siste grepkorpus øverst på missing lista, og den har nå økt(!?) til 394. Disse dokumentene har problemer i hele teksten med bokstaven đ og får dermed ikke en brukbar analyse. f.eks. DieÜáhus guoská ráÜi doaimmaide

342 oktavuoÜas finnes i disse to dokumentene:

sd/plenum_no/dc1998_4.doc.xml sd/plenum_no/dc1999_1.doc.xml

I disse to dokumentene er det 2224 linjer som inneholder Ü, så Ü=đ ville bety en kraftig forbedring av analysen.

freecorpus r5759 fikser de to nevnte dokumentene og orig/sme/admin/sd/other_files/1999_2s.doc

Med disse tre dokumentene ordnet, får jeg denne listen over filer som inneholder Ü: grep -rl Ü *corpus/converted/sme/ boundcorpus/converted/sme/science/allaskuvla/publications/diedut/diedut_2008_1_bokblokka.pdf.xml boundcorpus/converted/sme/science/allaskuvla/publications/diedut/diedut_2009_1_samlet_20091015.pdf.xml boundcorpus/converted/sme/science/allaskuvla/dissertations/johanna_ijaes.pdf.xml boundcorpus/converted/sme/science/sda/sda_2011_2_ja_2012_1-nils_oskal.pdf.xml boundcorpus/converted/sme/science/sda/sda_2007_1_ja_2007_2-marit_b_henriksen.pdf.xml boundcorpus/converted/sme/science/sda/sda_2007_1_ja_2007_2-pekka_sammallahti.pdf.xml boundcorpus/converted/sme/science/sust/sust253_aikiojaylikoski.pdf.xml boundcorpus/converted/sme/news/avvir/avvir_xml-filer/avvir_2011_xml-filer/zits_nr_212_txt.article.xml.xml boundcorpus/converted/sme/news/avvir/avvir_xml-filer/avvir_2011_xml-filer/zits_nr_211_txt.article.xml.xml boundcorpus/converted/sme/news/avvir/avvir_xml-filer/avvir_2010_xml-filer/s9_nsr-n_rabas_reive.article.xml.xml boundcorpus/converted/sme/news/avvir/avvir_xml-filer/avvir_2010_xml-filer/s2_leder_077.article.xml.xml boundcorpus/converted/sme/news/minaigi/2007/022-07/_ah-rolffa_samisk.doc.xml boundcorpus/converted/sme/news/minaigi/2006/081-06/_eu-samiteus.doc.xml boundcorpus/converted/sme/news/minaigi/2006/075-06/_govvaraiddut_nr_75.doc.xml boundcorpus/converted/sme/news/minaigi/2006/088-06/_aj-nuoraide_falaldat.doc.xml boundcorpus/converted/sme/facta/other_files/samis4.pdf.xml boundcorpus/converted/sme/facta/ridduriddu-aviissat/riddu_riddu_avis_txt.200815.svg.xml boundcorpus/converted/sme/facta/ridduriddu-aviissat/riddu_riddu_avis_txt.200933.svg.xml boundcorpus/converted/sme/facta/ridduriddu-aviissat/riddu_riddu_avis_txt.200933.txt.xml boundcorpus/converted/sme/facta/ridduriddu-aviissat/riddu_riddu_avis_txt.200815.txt.xml boundcorpus/converted/sme/facta/ridduriddu-aviissat/riddu_riddu_avis_txt.200831.svg.xml freecorpus/converted/sme/admin/depts/regjeringen.no/divatallat-assiidgulahallama-birra-_id_684707.html.xml freecorpus/converted/sme/admin/sd/samiske_tall/samiske_tall_forteller_3_sam.pdf.xml

Og alle disse så ut til å ha en gyldig bruk av Ü

albbas commented 8 years ago

Comment 11458

Date: 2016-09-30 00:43:23 +0200 From: Børre Gaup <>

(In reply to Lene Antonsen from comment #29)

Neste problem på missinglist er konverteringa av ž. Det dukker opp på lista som 229 ieas [iežas]. Jeg finner 189 av ieas-ordet i disse dokumentene:

sd/other_files/ekl2011-1.pdf.xml Her finner jeg dette i originaldokumentet: "vejolašvuođa heivehit ieas ođđa dillái" på side 9. Dette er det eneste tilfellet.

sd/plenum_no/dc2011-1.pdf.xml og her "vejolašvuođa heivehit ieas ođđa dillái" på side 227 som eneste tilfelle og forøvrig nøyaktig samme avsnitt som i dokumentet ovenfor.

og dokumentene i sd/www.samediggi.fi/

Det som er rart, er at i sd/other_files/ekl2011-1.pdf.xml og sd/plenum_no/dc2011-1.pdf.xml blir de fleste ž blir som de skal, sjøl om iežas blir ieas : sd/other_files/ekl2011-1.pdf.xml:

2. Sámediggi ávžžuha Eanandoallodepartemeantta láhččit dilálašvuođaid dasa ahte dát viiddes muddemat eanadoalus loahpahuvvojit, ja juohke okta ealáhusdoalli eanadoalus oažžu vejolašvuođa heivehit ieas ođđa dillái ja márkanii nu ahte sii eai dárbbaš nu ollu almmolaš doarjagiid.

Men i dokumentene i sd/www.samediggi.fi/ forsvinner alle ž, f.eks. oaut [oažžut]

HTML-konverteren ga feil encoding til disse dokumentene. langtech r140772 fikser dette problemet.