giellalt / bugzilla-dummy

0 stars 0 forks source link

metainformation gets mixed up with actual text (Bugzilla Bug 1430) #136

Open albbas opened 12 years ago

albbas commented 12 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1430

Date: 2012-09-17T15:14:53+02:00 From: Linda Wiechetek <> To: Børre Gaup <> CC: ciprian.gerstenberger, lene.antonsen, sjur.n.moshagen, trond.trosterud

Last updated: 2018-04-24T16:48:37+02:00

albbas commented 12 years ago

Comment 6787

Date: 2012-09-17 15:14:53 +0200 From: Linda Wiechetek <>

Found this in the analysed corpus on xserve

"<ingress:–Mun>" "ingress:–Mun" ? @X "" "jearrat" V TV Ind Prs Sg1 @+FMAINV "" "movt" CS @CVP "<sáhttá>" "sáhttit" V IV Ind Prs Sg3 @+FAUXV "<sámegiela>" "sámegiella" N Sg Gen @>N "<ruđain>" "ruhta" N Pl Loc @ADVL> "" "atnit" V TV Inf @-FMAINV "" "buorre" A Comp Attr @>N "<ávkki>" "ávki" N Sg Acc @<OBJ "" "go" CS @CNP "" "ahte" CS @CVP

"" "tekst:Go" ? @X "<Áššu>" "Áššu" N Prop Org Sg Acc @X "<jearrá>" "jearrat" V TV Ind Prs Sg3 @+FMAINV "" "dat" Pron Dem Pl Gen @>N "<eará>" "eará" Pron Indef Attr @>N "<feastiválaid>" "feastivála" N Pl Gen @>P "" "birra" Po @<ADVL "<,>" "," CLB

albbas commented 12 years ago

Comment 6804

Date: 2012-09-19 16:48:34 +0200 From: Lene Antonsen <>

Fint at dette blir tatt opp i bugzilla. Det er mye metatekst i den konverterte versjonen av news, men også slike: ja man ÒfállitÓ dán rádjái leat vuoitán. (Ó har sannsynligvis vært anførselstegn)

albbas commented 12 years ago

Comment 6815

Date: 2012-09-19 22:20:00 +0200 From: Børre Gaup <>

The conversion error is fixed in r62841. The errors appearing in texts will be fixed by running the conversion anew.

albbas commented 12 years ago

Comment 6817

Date: 2012-09-19 23:05:30 +0200 From: Trond Trosterud <>

Kva er rutina? Når vil boundcorpus bli konvertert på nytt?

albbas commented 12 years ago

Comment 6832

Date: 2012-09-20 12:57:13 +0200 From: Børre Gaup <>

(In reply to comment #3)

Kva er rutina? Når vil boundcorpus bli konvertert på nytt?

En gang i døgnet, konverteringen starter ca 2 om natta

albbas commented 12 years ago

Comment 7144

Date: 2012-10-19 14:50:41 +0200 From: Trond Trosterud <>

Vi er ikkje heilt der. Problemet var ikkje berre "ingress:-Problem" men anna metatekst også:

Tittel:-Leimet TITTEL:-Mii (at)tekst:-Leaibi DIKTATUVRA:-Dábálaš (at)tekst:- (at)tittel:-Sápmi (at)m.titt:- (at)ingress:-Njeallja

Og:

cat sme-news.ccat.txt|cut -d" " -f1|grep ':[^ ]'|wc -l 4819

Tittel:Go Nordnytt:as TITTEL:Nuppástuhttin Tittel:-Leimet Tekst:Bákteváre BILDETEKST:Jorunn

Her er dei vanlegaste metatekstane som har kolon og manglande mellomrom:

355 (at)tittel 335 (at)m.titt 226 (at)tekst 155 (at)titt 125 (at)ingress 94 (at)bilde 90 Govven 88 GÁLDU 64 NSR 60 (at)bold 57 LOGO 48 (at)mtitt 42 TEKST 41 http 39 GOVVEN 35 KÁRÁŠJOHKA 34 Kronihkkačálli 33 Govva 33 (at)stikk 28 (bilde 24 SÁPMI 24 (at)byline 23 NBR 21 Spillere 21 GUOVDAGEAIDNU 17 tekst 17 (at)foto 15 DUHTAVAŠ 15 DEATNU 15 (at)stikktitt 13 titt 13 M:TITT 11 TITT 11 Namma

albbas commented 12 years ago

Comment 7186

Date: 2012-10-28 00:30:13 +0200 From: Trond Trosterud <>

Eg ser nærare på dette no, og det ser ut til at det beste er å angripe frå høgre: setje inn eit mellomrom mellom kolon og stor bokstav. Denne kommandoen gav meg ca. 10-15 feilanalyser, av 6500 korrigeringar: sme-news.ccat.txt |sed 's/:[A-ZÁČŠ]/: \1/g;'|less

Så prøv å få denne inn i korpus-prosesserings-pipeline, så vi kan få analysert korpus utan dei 6500 feila.

albbas commented 12 years ago

Comment 7187

Date: 2012-10-28 00:32:39 +0200 From: Trond Trosterud <>

Ja, og så alle tre tankestrekane, sjølvsagt (hyphen, en-dash, em-dash, eller tankestrek, alt-tankestrek, alt-shift-tankestrek: sme-news.ccat.txt |sed 's/:[A-ZÁČŠ—–-]/: \1/g;'|less

albbas commented 12 years ago

Comment 7318

Date: 2012-11-06 13:27:00 +0100 From: Trond Trosterud <>

Eg ser at denne har blitt ståande som P5, det er ikkje ein god idé. Det skal svært lite til for å ordne den, og resultatet av at den ikkje er ordna er at aviskorpuset er vanskeleg å bruke.

albbas commented 11 years ago

Comment 7443

Date: 2012-11-21 12:56:40 +0100 From: Lene Antonsen <>

Denne haster å gjøre noe med. Vi har en språkforsker som skal bruke NEWS, og analysene bør være så bra som mulig.

albbas commented 11 years ago

Comment 7583

Date: 2012-12-18 12:57:59 +0100 From: Børre Gaup <>

Jeg kommer til å se på denne i romjula, jeg er i ferd med å bytte ut rammeverket bygget på Perl med et i Python.

albbas commented 11 years ago

Comment 7680

Date: 2013-01-14 02:44:30 +0100 From: Børre Gaup <>

These newstext tags mentioned below are taken care of as of langtech svn r67915. There are a quite a few variations of these that still remain, will search for more of these as time allows.

@bilde: Bilde: @bold: Ingress:', u'') @ingress:', u'') LOGO: @tekst: @stikk: Stikk: TEKST: tekst: @foto: @m.titt: m.titt: M:TITT: Mellomtittel: @stikktitt: @utitt: @u.titt: @undertitt: undertitt: @ttitt: @ttt: @tit: @Titt: titt: @tittel: @titt: TITT: Tittel: @byline: Byline:

albbas commented 11 years ago

Comment 7682

Date: 2013-01-14 08:38:34 +0100 From: Trond Trosterud <>

Also this fix is relevant to our wednesday course.

albbas commented 11 years ago

Comment 7720

Date: 2013-01-17 10:40:15 +0100 From: Ritva Nystad <>

Status quo: giellatekno:2013-01-16 ritva$ cat sme*dis|grep '^\"'|grep '[A-Za-z]:[^áaisn0-9/]'|cut -d":" -f1|sort |uniq -c|sort -nr|head -20

26 "<bilde 22 "<Kronihkkačálli 18 "<by 12 "<virggiide 12 "<leat 10 "<lasiha 10 "<celkkii 8 "<dajai 8 "<Govven 8 "<A 7 "<girjjiid 6 "<mars 6 "<birra 6 "<Gáldu 6 "<Doaibmasuorgi 5 "<dáppe 5 "<deike 5 "<Ad

albbas commented 7 years ago

Comment 11896

Date: 2016-12-19 22:11:11 +0100 From: Trond Trosterud <>

Dette er langt betre enn før, men det er framleis smårusk. Kva trur dokker, er dette noko å sjå vidare på eller skal vi lukke?

31 "<Rivttes:

" 29 "<Govven:Ámmun>" 24 "" 23 "" 20 "<GOVVEN:Ámmun>" 17 "" 15 "" 14 "" 14 "" 11 "" 11 "<SÁMAS:Min>" 11 "<KÁRÁŠJOHKA:Ámmun>" 11 "" 10 "<rammesak:Dá>" 10 "<II:ža>" 8 "<SÁPMI:Ámmun>" 7 "<SÁPMI:Máret>" 7 "" 7 "<KÁRÁŠJOHKA:HANS>" 7 "" 7 "" 7 "" 7 ""

albbas commented 7 years ago

Comment 11897

Date: 2016-12-20 08:37:47 +0100 From: Sjur Nørstebø Moshagen <>

Corrected hardware and OS designations, lowered priority (but not severity).

albbas commented 7 years ago

Comment 12641

Date: 2017-10-04 22:24:20 +0200 From: Sjur Nørstebø Moshagen <>

Avslutt?

albbas commented 7 years ago

Comment 12642

Date: 2017-10-04 22:25:53 +0200 From: Sjur Nørstebø Moshagen <>

Ritva treng ikkje vera på CC-lista lenger.

albbas commented 7 years ago

Comment 12645

Date: 2017-10-04 22:35:15 +0200 From: Trond Trosterud <>

Nja, vi er vel omtrent der vi var i 2016, resultatet frå i sommar er det same som det var for eit år sidan. Poenget er at metateksten blir med, så desse prefiksa burde det vel vere mogleg å bli kvitt?

2017-06-22$cat sme*dep|grep '^\"'|grep '[A-Za-z]:[^áaisn0-9/]'|sort |uniq -c|sort -nr|head -20 31 "<Rivttes:

" 29 "<Govven:Ámmun>" 24 "" 23 "" 20 "<GOVVEN:Ámmun>" 17 "" 15 "" 14 "" 14 "" 11 "" 11 "<SÁMAS:Min>" 11 "<KÁRÁŠJOHKA:Ámmun>" 11 "" 10 "<rammesak:Dá>" 10 "<II:ža>" 8 "<SÁPMI:Ámmun>" 7 "<SÁPMI:Máret>" 7 "" 7 ""

albbas commented 6 years ago

Comment 12746

Date: 2018-04-24 16:48:37 +0200 From: Børre Gaup <>

akdsjf;l