albbas commented 10 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1780

Date: 2014-01-12T13:24:08+01:00 From: Lene Antonsen <> To: Børre Gaup <> CC: ciprian.gerstenberger, sjur.n.moshagen, trond.trosterud

Last updated: 2016-04-20T19:45:34+02:00

albbas commented 10 years ago

Comment 8887

Date: 2014-01-12 13:24:08 +0100 From: Lene Antonsen <>

En del smj- og sma-teskter er definert som sme:

giellatekno:2013-12-01 lene$ cat sme*dis |grep '""'|wc -l 121

Dette må vel rettes opp i xsl-filene? Dette haster å ordne opp i pga av at vi skal snart presentere Korp, og disse tekstene dukker opp som nordsamisk i Korp.

albbas commented 10 years ago

Comment 8889

Date: 2014-01-12 13:27:46 +0100 From: Lene Antonsen <>

Dette må vel rettes opp i xsl-filene? Eller de kanskje bare feilplassert i sme-mapper?

albbas commented 10 years ago

Comment 8896

Date: 2014-01-12 16:00:26 +0100 From: Trond Trosterud <>

Som sagt i bug #1778 er dette språkblanda dokument der det i xsl-fila ikkje står at det kan vere smj eller sma -innhald.

Eii mogleg løysing kan vere å legge til smj og sma som moglege språk for alle filene i sme/admin/depts/regjeringen.no. Det er 3332 filer, så det kan vere den beste løysinga.

albbas commented 10 years ago

Comment 9054

Date: 2014-01-31 11:58:19 +0100 From: Børre Gaup <>

Skal finne ut av hvilke filer dette problemet stammer fra

albbas commented 10 years ago

Comment 9074

Date: 2014-02-03 20:15:11 +0100 From: Trond Trosterud <>

Eg oppgraderer denne. Vi har no ein missing-prosent på 5%. Denne bugen er den overlegent største grunnen til den høge prosenten.

Men dei største skurkane er ikkje sma og smj, det er nob og eng. Her er 100-på-topp, dei hundre vanlegaste missing på boundcorpus:

og er på til for med av fra har SIIDDUS år ikke ttv KÁRÁŠJOHKA om Slutt avvir.no ================================================================================ vi Dagsnytt kan SÁPMI også Grand_Prix skal vil and eller Ášši astrid.helander@avvir.no kirke GUOVDAGEAIDNU seg Vi Distriktsnyheter hver the of ved Home så samisk Distriktsprogram hele Áne ¥ Været var Nyhetene SIIDU Showview jeg to blir Áidna være men Álggos Regi Šaddá sporten time etter været Aktuelt Med rollene Offer sier kl nyheter ¥¥ Áhčči forts aldersgrense da Men Kapittel carl@avvir.no Anb ut samiske opp leie Funniest andre salgs Jeg må prestegjeld få gode over får deg Trafikkradio Alle johanante@avvir.no America dag

albbas commented 10 years ago

Comment 9102

Date: 2014-02-11 12:07:59 +0100 From: Lene Antonsen <>

Bug #1817 has been marked as a duplicate of this bug.

albbas commented 10 years ago

Comment 9103

Date: 2014-02-11 12:11:12 +0100 From: Lene Antonsen <>

Sjurs kommentar fra Bug #1817: http://gtweb.uit.no/korp/#page=0&lang=nb&search=word%7Cåålme

tick the check boxes:

som ◻︎ prefiks ◻︎ suffiks og ◻︎ skiller ikke mellom store/små

and search the North Sámi corpus. You will get 21 hits, all of them sma. I am sure there are other search strings that will reveal more such misclassified texts:

jïh - 661 hits jih - 96 hits (hm, a great victory for ï :) - kind of surprising) bijre - 14 hits bïjre - 101 hits [reply] [-] Comment 1

albbas commented 10 years ago

Comment 9106

Date: 2014-02-11 13:52:15 +0100 From: Trond Trosterud <>

Kommentaren min i (2) er framleis den tredje beste løysinga, slik eg ser det (den beste er å gå gjennom dei 3300 filene ei for ei, og den nest beste er å prøve å finne visse grupper av filer som vi kan seie at har det eine eller det andre språket).

Men altså:

Missingprosent for dagens korpus
Deretter merking av trespråkleghelt for valde elelr alle filer i regjeringen.no
Deretter konvertering på nytt og ny missingprosent.

albbas commented 10 years ago

Comment 9125

Date: 2014-02-14 17:13:42 +0100 From: Børre Gaup <>

Jeg har fornyet en del xsl-filer i free- og boundcorpus og spesifisert språk der det ikke var spesifisert før, får håpe det hjelper.

albbas commented 10 years ago

Comment 9141

Date: 2014-02-18 16:42:31 +0100 From: Børre Gaup <>

Alle filer med ï og er nå enten flyttet eller merket med sma og smj.

albbas commented 10 years ago

Comment 9218

Date: 2014-03-26 21:14:02 +0100 From: Lene Antonsen <>

Det er en del artikler i Avvir som er nob, f.eks. i påskeavisa som har kommet ut hvert år i mange år. Man kan finne en del av disse filene, ved at de har har 'norsk' eller 'Norsk' i tittelen, f.eks.:

Avvir_2010_xml-filer/s12_sak1_Norsk.article.xml Avvir_xml-filer/Avvir_2009_xml-filer/s7_sak1_norsk.article.xml

Ellers så kan man sikkert grepe noen norske ord for å finne flere slike filer, Avvir_xml-filer/Avvir_2008_xml-filer/s_sva___cd-slipp_inga_juuso.article.xml

Muligens er det en sme- og en nob-del i slike filer.

albbas commented 9 years ago

Comment 9956

Date: 2015-01-11 16:09:43 +0100 From: Trond Trosterud <>

(In reply to comment #9)

Alle filer med ï og er nå enten flyttet eller merket med sma og smj.

Flott, Børre!

Men det er framleis mykje att, merk at problemet er større i bound enn i free (testa på xserve):

bound: boundcorpus$ccat -l sme converted/sme/|grep ' ikke '|wc -l 903

free: boundcorpus$ccat -l sme ../freecorpus/converted/sme/|grep ' ikke '|wc -l 200

Eg går ut i frå at språkattkjenninga no er så god at problemet her er at norske dokument er merka som einspråkleg samiske, så dette blir neste steg.

albbas commented 8 years ago

Comment 11309

Date: 2016-04-20 19:45:34 +0200 From: Børre Gaup <>

Test

giellalt / bugzilla-dummy

feil språk i sme (Bugzilla Bug 1780) #28

Bugzilla Bug 1780

Comment 8887

Comment 8889

Comment 8896

Comment 9054

Comment 9074

Comment 9102

Comment 9103

Comment 9106

Comment 9125

Comment 9141

Comment 9218

Comment 9956

Comment 11309