Open albbas opened 10 years ago
Date: 2014-01-12 13:24:08 +0100
From: Lene Antonsen <
En del smj- og sma-teskter er definert som sme:
giellatekno:2013-12-01 lene$ cat sme*dis |grep '"
Dette må vel rettes opp i xsl-filene? Dette haster å ordne opp i pga av at vi skal snart presentere Korp, og disse tekstene dukker opp som nordsamisk i Korp.
Date: 2014-01-12 13:27:46 +0100
From: Lene Antonsen <
Dette må vel rettes opp i xsl-filene? Eller de kanskje bare feilplassert i sme-mapper?
Date: 2014-01-12 16:00:26 +0100
From: Trond Trosterud <
Som sagt i bug #1778 er dette språkblanda dokument der det i xsl-fila ikkje står at det kan vere smj eller sma -innhald.
Eii mogleg løysing kan vere å legge til smj og sma som moglege språk for alle filene i sme/admin/depts/regjeringen.no. Det er 3332 filer, så det kan vere den beste løysinga.
Date: 2014-01-31 11:58:19 +0100
From: Børre Gaup <
Skal finne ut av hvilke filer dette problemet stammer fra
Date: 2014-02-03 20:15:11 +0100
From: Trond Trosterud <
Eg oppgraderer denne. Vi har no ein missing-prosent på 5%. Denne bugen er den overlegent største grunnen til den høge prosenten.
Men dei største skurkane er ikkje sma og smj, det er nob og eng. Her er 100-på-topp, dei hundre vanlegaste missing på boundcorpus:
og er på til for med av fra har SIIDDUS år ikke ttv KÁRÁŠJOHKA om Slutt avvir.no ================================================================================ vi Dagsnytt kan SÁPMI også Grand_Prix skal vil and eller Ášši astrid.helander@avvir.no kirke GUOVDAGEAIDNU seg Vi Distriktsnyheter hver the of ved Home så samisk Distriktsprogram hele Áne ¥ Været var Nyhetene SIIDU Showview jeg to blir Áidna være men Álggos Regi Šaddá sporten time etter været Aktuelt Med rollene Offer sier kl nyheter ¥¥ Áhčči forts aldersgrense da Men Kapittel carl@avvir.no Anb ut samiske opp leie Funniest andre salgs Jeg må prestegjeld få gode over får deg Trafikkradio Alle johanante@avvir.no America dag
Date: 2014-02-11 12:07:59 +0100
From: Lene Antonsen <
Bug #1817 has been marked as a duplicate of this bug.
Date: 2014-02-11 12:11:12 +0100
From: Lene Antonsen <
Sjurs kommentar fra Bug #1817: http://gtweb.uit.no/korp/#page=0&lang=nb&search=word%7Cåålme
tick the check boxes:
som ◻︎ prefiks ◻︎ suffiks og ◻︎ skiller ikke mellom store/små
and search the North Sámi corpus. You will get 21 hits, all of them sma. I am sure there are other search strings that will reveal more such misclassified texts:
jïh - 661 hits jih - 96 hits (hm, a great victory for ï :) - kind of surprising) bijre - 14 hits bïjre - 101 hits [reply] [-] Comment 1
Date: 2014-02-11 13:52:15 +0100
From: Trond Trosterud <
Kommentaren min i (2) er framleis den tredje beste løysinga, slik eg ser det (den beste er å gå gjennom dei 3300 filene ei for ei, og den nest beste er å prøve å finne visse grupper av filer som vi kan seie at har det eine eller det andre språket).
Men altså:
Date: 2014-02-14 17:13:42 +0100
From: Børre Gaup <
Jeg har fornyet en del xsl-filer i free- og boundcorpus og spesifisert språk der det ikke var spesifisert før, får håpe det hjelper.
Date: 2014-02-18 16:42:31 +0100
From: Børre Gaup <
Alle filer med ï og
Date: 2014-03-26 21:14:02 +0100
From: Lene Antonsen <
Det er en del artikler i Avvir som er nob, f.eks. i påskeavisa som har kommet ut hvert år i mange år. Man kan finne en del av disse filene, ved at de har har 'norsk' eller 'Norsk' i tittelen, f.eks.:
Avvir_2010_xml-filer/s12_sak1_Norsk.article.xml Avvir_xml-filer/Avvir_2009_xml-filer/s7_sak1_norsk.article.xml
Ellers så kan man sikkert grepe noen norske ord for å finne flere slike filer, Avvir_xml-filer/Avvir_2008_xml-filer/s_sva___cd-slipp_inga_juuso.article.xml
Muligens er det en sme- og en nob-del i slike filer.
Date: 2015-01-11 16:09:43 +0100
From: Trond Trosterud <
(In reply to comment #9)
Alle filer med ï og
er nå enten flyttet eller merket med sma og smj.
Flott, Børre!
Men det er framleis mykje att, merk at problemet er større i bound enn i free (testa på xserve):
bound: boundcorpus$ccat -l sme converted/sme/|grep ' ikke '|wc -l 903
free: boundcorpus$ccat -l sme ../freecorpus/converted/sme/|grep ' ikke '|wc -l 200
Eg går ut i frå at språkattkjenninga no er så god at problemet her er at norske dokument er merka som einspråkleg samiske, så dette blir neste steg.
Date: 2016-04-20 19:45:34 +0200
From: Børre Gaup <
Test
This issue was created automatically with bugzilla2github
Bugzilla Bug 1780
Date: 2014-01-12T13:24:08+01:00 From: Lene Antonsen <>
To: Børre Gaup <>
CC: ciprian.gerstenberger, sjur.n.moshagen, trond.trosterud
Last updated: 2016-04-20T19:45:34+02:00