alternativ-nu / retrosearch

R-paket med sökfunktionalitet för artiklar publicerade i Tidningen Åter
https://retrosearch.recraft.me
GNU Affero General Public License v3.0
0 stars 0 forks source link

Konstiga värden för potter #17

Closed recraft-ou closed 5 years ago

recraft-ou commented 5 years ago

I .tab filen med data för potter finns dessa värden som ser konstiga ut (det är värdet under "credits" som är icke-numeriskt i vissa fall blankt "" eller "P" och kolumnen n anger hur många av denna sorts poster som finns):

credits id n
586 39
1334 54
1372 70
1982 34
8013 35
9596 53
13175 45
14544 47
14558 37
15948 47
16006 47
16759 37
16813 39
18660 34
18787 37
18829 36
19912 34
23055 34
23519 34
23680 34
24042 34
24322 42
24348 34
24828 42
24879 34
24926 34
25104 34
25106 34
25238 38
25508 34
25652 34
-29,94 20554 34
232,76 2802 76
267,81 3994 74
42,25 18304 36
43,64 7538 69
P 19621 36

I nuläget vet jag inte hur jag ska hantera dessa på rätt sätt, så jag filtrerar bort dessa poster.

TidningenAter commented 5 years ago

Såg att jag visst svarat på detta via mail till en annan issue, men

  1. Ang de konstiga värdena i pott-filen så ser jag bara att den sista med P är felaktig, vilket är fixat nu. De som har tomma credits kan jag byta ut till 0 och de med decimaler kan jag avrunda om du vill. Men jag förstår inte vad tredje spalten ”n” är?
recraft-ou commented 5 years ago

Tabellen ovan var grupperad på "credits" och "id" och n anger antalet poster för varje sådan grupp - datan kommer ursprungligen från potter.tab-filen.

TidningenAter commented 5 years ago

Ursäkta, missade att du skrivit det ovan. Men jag fattar ändå inte n. Det är ju t ex bara en post med -29,94 i potten, inte 34. Men vill du att jag avrundar decimaler och tar bort ""-fält till nästa export?

recraft-ou commented 5 years ago

Stämmer, jag glömde att nämna att jag kopplade ihop datan för potterna med transaktionshistoriken för varje id så n anger därmed bara antalet transaktionsposter som varje pnr har.

Du kan gärna avrunda decimaler och ta bort ""-fält, det är bra, men inte bråttom, för jag gör det på mottagarsidan vid importen från .tab-filerna som i nästa version också läses in med "," som decimalseparator, så du kan också lämna det som det är - det är alltså inte kritiskt att göra det direkt nu.

TidningenAter commented 5 years ago

Nu finns inga decimaler eller tomma värden i pottfältet