Open albbas opened 12 years ago
Date: 2012-09-17 15:14:53 +0200
From: Linda Wiechetek <
Found this in the analysed corpus on xserve
"<ingress:–Mun>"
"ingress:–Mun" ? @X
"
"
Date: 2012-09-19 16:48:34 +0200
From: Lene Antonsen <
Fint at dette blir tatt opp i bugzilla. Det er mye metatekst i den konverterte versjonen av news, men også slike: ja man ÒfállitÓ dán rádjái leat vuoitán. (Ó har sannsynligvis vært anførselstegn)
Date: 2012-09-19 22:20:00 +0200
From: Børre Gaup <
The conversion error is fixed in r62841. The errors appearing in texts will be fixed by running the conversion anew.
Date: 2012-09-19 23:05:30 +0200
From: Trond Trosterud <
Kva er rutina? Når vil boundcorpus bli konvertert på nytt?
Date: 2012-09-20 12:57:13 +0200
From: Børre Gaup <
(In reply to comment #3)
Kva er rutina? Når vil boundcorpus bli konvertert på nytt?
En gang i døgnet, konverteringen starter ca 2 om natta
Date: 2012-10-19 14:50:41 +0200
From: Trond Trosterud <
Vi er ikkje heilt der. Problemet var ikkje berre "ingress:-Problem" men anna metatekst også:
Tittel:-Leimet TITTEL:-Mii (at)tekst:-Leaibi DIKTATUVRA:-Dábálaš (at)tekst:- (at)tittel:-Sápmi (at)m.titt:- (at)ingress:-Njeallja
Og:
cat sme-news.ccat.txt|cut -d" " -f1|grep ':[^ ]'|wc -l 4819
Tittel:Go Nordnytt:as TITTEL:Nuppástuhttin Tittel:-Leimet Tekst:Bákteváre BILDETEKST:Jorunn
Her er dei vanlegaste metatekstane som har kolon og manglande mellomrom:
355 (at)tittel 335 (at)m.titt 226 (at)tekst 155 (at)titt 125 (at)ingress 94 (at)bilde 90 Govven 88 GÁLDU 64 NSR 60 (at)bold 57 LOGO 48 (at)mtitt 42 TEKST 41 http 39 GOVVEN 35 KÁRÁŠJOHKA 34 Kronihkkačálli 33 Govva 33 (at)stikk 28 (bilde 24 SÁPMI 24 (at)byline 23 NBR 21 Spillere 21 GUOVDAGEAIDNU 17 tekst 17 (at)foto 15 DUHTAVAŠ 15 DEATNU 15 (at)stikktitt 13 titt 13 M:TITT 11 TITT 11 Namma
Date: 2012-10-28 00:30:13 +0200
From: Trond Trosterud <
Eg ser nærare på dette no, og det ser ut til at det beste er å angripe frå høgre: setje inn eit mellomrom mellom kolon og stor bokstav. Denne kommandoen gav meg ca. 10-15 feilanalyser, av 6500 korrigeringar: sme-news.ccat.txt |sed 's/:[A-ZÁČŠ]/: \1/g;'|less
Så prøv å få denne inn i korpus-prosesserings-pipeline, så vi kan få analysert korpus utan dei 6500 feila.
Date: 2012-10-28 00:32:39 +0200
From: Trond Trosterud <
Ja, og så alle tre tankestrekane, sjølvsagt (hyphen, en-dash, em-dash, eller tankestrek, alt-tankestrek, alt-shift-tankestrek: sme-news.ccat.txt |sed 's/:[A-ZÁČŠ—–-]/: \1/g;'|less
Date: 2012-11-06 13:27:00 +0100
From: Trond Trosterud <
Eg ser at denne har blitt ståande som P5, det er ikkje ein god idé. Det skal svært lite til for å ordne den, og resultatet av at den ikkje er ordna er at aviskorpuset er vanskeleg å bruke.
Date: 2012-11-21 12:56:40 +0100
From: Lene Antonsen <
Denne haster å gjøre noe med. Vi har en språkforsker som skal bruke NEWS, og analysene bør være så bra som mulig.
Date: 2012-12-18 12:57:59 +0100
From: Børre Gaup <
Jeg kommer til å se på denne i romjula, jeg er i ferd med å bytte ut rammeverket bygget på Perl med et i Python.
Date: 2013-01-14 02:44:30 +0100
From: Børre Gaup <
These newstext tags mentioned below are taken care of as of langtech svn r67915. There are a quite a few variations of these that still remain, will search for more of these as time allows.
@bilde: Bilde: @bold: Ingress:', u'') @ingress:', u'') LOGO: @tekst: @stikk: Stikk: TEKST: tekst: @foto: @m.titt: m.titt: M:TITT: Mellomtittel: @stikktitt: @utitt: @u.titt: @undertitt: undertitt: @ttitt: @ttt: @tit: @Titt: titt: @tittel: @titt: TITT: Tittel: @byline: Byline:
Date: 2013-01-14 08:38:34 +0100
From: Trond Trosterud <
Also this fix is relevant to our wednesday course.
Date: 2013-01-17 10:40:15 +0100
From: Ritva Nystad <
Status quo: giellatekno:2013-01-16 ritva$ cat sme*dis|grep '^\"'|grep '[A-Za-z]:[^áaisn0-9/]'|cut -d":" -f1|sort |uniq -c|sort -nr|head -20
26 "<bilde 22 "<Kronihkkačálli 18 "<by 12 "<virggiide 12 "<leat 10 "<lasiha 10 "<celkkii 8 "<dajai 8 "<Govven 8 "<A 7 "<girjjiid 6 "<mars 6 "<birra 6 "<Gáldu 6 "<Doaibmasuorgi 5 "<dáppe 5 "<deike 5 "<Ad
Date: 2016-12-19 22:11:11 +0100
From: Trond Trosterud <
Dette er langt betre enn før, men det er framleis smårusk. Kva trur dokker, er dette noko å sjå vidare på eller skal vi lukke?
31 "<Rivttes:
"
29 "<Govven:Ámmun>"
24 "
Date: 2016-12-20 08:37:47 +0100
From: Sjur Nørstebø Moshagen <
Corrected hardware and OS designations, lowered priority (but not severity).
Date: 2017-10-04 22:24:20 +0200
From: Sjur Nørstebø Moshagen <
Avslutt?
Date: 2017-10-04 22:25:53 +0200
From: Sjur Nørstebø Moshagen <
Ritva treng ikkje vera på CC-lista lenger.
Date: 2017-10-04 22:35:15 +0200
From: Trond Trosterud <
Nja, vi er vel omtrent der vi var i 2016, resultatet frå i sommar er det same som det var for eit år sidan. Poenget er at metateksten blir med, så desse prefiksa burde det vel vere mogleg å bli kvitt?
2017-06-22$cat sme*dep|grep '^\"'|grep '[A-Za-z]:[^áaisn0-9/]'|sort |uniq -c|sort -nr|head -20 31 "<Rivttes:
"
29 "<Govven:Ámmun>"
24 "
Date: 2018-04-24 16:48:37 +0200
From: Børre Gaup <
akdsjf;l
This issue was created automatically with bugzilla2github
Bugzilla Bug 1430
Date: 2012-09-17T15:14:53+02:00 From: Linda Wiechetek <>
To: Børre Gaup <>
CC: ciprian.gerstenberger, lene.antonsen, sjur.n.moshagen, trond.trosterud
Last updated: 2018-04-24T16:48:37+02:00