spaghetti-open-data / code4health-amianto

Code4Health Amianto esplora nuovi modi per aiutare il data journalism dietro le inchieste sull'amianto in Italia
4 stars 2 forks source link

lavoro di pulizia sui CSV #2

Open aborruso opened 8 years ago

aborruso commented 8 years ago

Ciao, nella cartella /dati/MinAmbiente/PNA_W/ ci sono diversi CSV. Vorrei capire con voi e sopratutto con @cesaregerbino che ha un po' seguito la parte di "montaggio" dei dati se ha senso un lavoro di pulizia di base.

Ho preso in esame soltanto uno dei file Campania_2013.csv e ho applicato il seguente comando:

cat Campania_2013.csv | tr -d "\n" | csvformat -d ";" -D "," -e Windows-1252 | sed '/^$/d'

In questo modo:

La standardizzazione consente un comodo preview dentro github, ma anche (ad esempio) un import diretto in cose alle gdrive.

Ho fatto altre due cose:

Il file è da pulire ulteriormente e ci sono problemi di caratteri "strani" ancora da risolvere. Volevo capire se vi sembra utile procedere in questo senso anche con gli altri CSV.

Saluti

cesaregerbino commented 8 years ago

Ciao Andrea,

scusa x il ritardo con cui rispondo ma dal ritorno da SOD16 non ho avuto molto tempo.

Il nostro lavoro di "montaggio" e' stato fatto molto velocemente man mano che recuperavamo dati durante l'hackaton e ho cercato di dare priorità a permettere di "vedere" la distribuzione dei dati sul territorio nazionale al termine della giornata pur sapendo che si trattava di dati, al momento, sporchi sia come dati descrittivi sia come dati geo riferiti (vedi i casi di Liguria e Veneto ....).

Questa è anche la ragione x cui x questi dati NON ho creato i corrispondenti shapefiles.

Quindi i dati sono SI da ripulire e quindi ben venga il tuo contributo (e di chi vorrà darti una mano ....). Ottimo il fatto che sia così disponibile il preview da gitHub (e quindi oggi ne ho imparata un'altra che non sapevo, o meglio a cui non avevo pensato, grazie a SOD !!!).

Resta da capire la "confrontabilita'" dei dati tra loro anche e non solo per gli aspetti temporali (i dati si riferiscono a tempi diversi e quindi un sito presente in una fonte potrebbe, anche correttamente, non essere più presente in un'altra più recente), ma questo è un altro aspetto.

Grazie Andrea del tuo prezioso contributo e se servono altre info chiedi pure.

A risentirci presto perché ho letto le varie mail scambiate e ho delle osservazioni e considerazioni da fare .....

Buona serata ....

Cesare

Il mercoledì 11 maggio 2016, Andrea Borruso notifications@github.com ha scritto:

Ciao, nella cartella /dati/MinAmbiente/PNA_W/ ci sono diversi CSV. Vorrei capire con voi e sopratutto con @cesaregerbino https://github.com/cesaregerbino che ha un po' seguito la parte di "montaggio" dei dati se ha senso un lavoro di pulizia di base.

Ho preso in esame soltanto uno dei file Campania_2013.csv e ho applicato il seguente comando:

cat Campania_2013.csv | tr -d "\n" | csvformat -d ";" -D "," -e Windows-1252 | sed '/^$/d'

In questo modo:

  • ho rimosso degli inutili line feed presenti (nella IV colonna)
  • ho "standardizzato" un po il CSV
    • è UTF8
    • il separatore è la ,
    • rimosso eventuali righe vuote (ma non ce ne è, l'ultima in realtà non è vuota)

La standardizzazione consente un comodo preview https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/MinAmbiente/PNA_W/Campania_2013.csv dentro github, ma anche (ad esempio) un import diretto in cose alle gdrive.

Ho fatto altre due cose:

  • aggiornato il file progetto QGIS rispetto a questo CSV aggiornato (cambia il separatore e QGIS lo deve sapere)
  • creato automaticamente - con csvstat - un file che descrive il suddetto file CSV.

Il file è da pulire ulteriormente e ci sono problemi di caratteri "strani" ancora da risolvere. Volevo capire se vi sembra utile procedere in questo senso anche con gli altri CSV.

Saluti

— You are receiving this because you were mentioned. Reply to this email directly or view it on GitHub https://github.com/spaghetti-open-data/code4health-amianto/issues/2

Cesare Gerbino

http://cesaregerbino.wordpress.com/ http://www.facebook.com/cesare.gerbino http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl https://twitter.com/CesareGerbino http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino: the views expressed are mine and not necessarily those of my employer. .

dagoneye commented 8 years ago

Esatto: il punto fondamentale è decidere il modello del dato finale, quali colonne ci servono etc. A occhio una delle cose da cui partire è l'esperienza che ha fatto Davide Mancino per l'inchiesta uscita su Wired, dove aveva usato i dati del 2010. Una pulizia di base è cmq fondamentale, grazie Andrea.

aborruso commented 8 years ago

Cari @cesaregerbino e @dagoneye i dati di questa cartella su cui ho iniziato a mettere il naso sono del 2013. Mentre quelli da cui partire sono del 2010. Mi fermo?

Quando dite (scusatemi non ho letto tutto) dati del 2010 fate riferimento a quelli INAIL? Nella scheda anagrafica non trovo altri riferimenti al 2010.

Grazie

aborruso commented 8 years ago

2016-05-11 20:03 GMT+02:00 cesaregerbino notifications@github.com:

Ottimo il fatto che sia così disponibile il preview da gitHub

Questa la sai già, ma un altro formato di gran comodità è il geojson. Per mille ragioni, di cui una è sempre il preview https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/INAIL/INAIL%20WGS%2084.geojson .

[image: Inline images 1]

Andrea Borruso website: http://blog.spaziogis.it 38° 7' 48" N, 13° 21' 9" E, EPSG:4326

"cercare e saper riconoscere chi e cosa, in mezzo all’inferno, non è inferno, e farlo durare, e dargli spazio"

Italo Calvino

cesaregerbino commented 8 years ago

infatti avevo risposto velocemente pensando al json ...... per le questioni "date", se non chiarisce prima Matteo o altri, ti rispondo più tardi con calma, adesso non posso

Cesare Gerbino

Il giorno 12 maggio 2016 09:22, Andrea Borruso notifications@github.com ha scritto:

2016-05-11 20:03 GMT+02:00 cesaregerbino notifications@github.com:

Ottimo il fatto che sia così disponibile il preview da gitHub

Questa la sai già, ma un altro formato di gran comodità è il geojson. Per mille ragioni, di cui una è sempre il preview < https://github.com/spaghetti-open-data/code4health-amianto/blob/master/dati/INAIL/INAIL%20WGS%2084.geojson

.

[image: Inline images 1]

Andrea Borruso website: http://blog.spaziogis.it 38° 7' 48" N, 13° 21' 9" E, EPSG:4326

"cercare e saper riconoscere chi e cosa, in mezzo all’inferno, non è inferno, e farlo durare, e dargli spazio"

Italo Calvino

— You are receiving this because you were mentioned. Reply to this email directly or view it on GitHub https://github.com/spaghetti-open-data/code4health-amianto/issues/2#issuecomment-218679605

dagoneye commented 8 years ago

@aborruso al volo: ottima l'idea di inserire un readme con le note sulla fonte all'interno delle singole cartelle, ci fa fare meno casino. Per la datazione esatta dei dati forse @cesaregerbino è la persona di riferimento: io rischio di dire panzane.

cesaregerbino commented 8 years ago

Ciao Andrea,

provo a fare mente locale ....

>>Quando dite (scusatemi non ho letto tutto) dati del 2010 fate riferimento a quelli INAIL? Si questo lo ricordo ....

_>>i dati di questa cartella su cui ho iniziato a mettere il naso sono del

  1. Mentre quelli da cui partire sono del 2010. Mi fermo?_ Eh qui ho qualche difficoltà in più perchè ad un certo punto ho iniziato a concentrami sulla parte QGIS e meno sulla raccolta dei dati. Andrei per deduzione: se i dati INAIL sono del 2010 mentre quelli del Ministero sono del 2013 io andrei avanti nella pulizia dei dati. Avremo così comunque un dato più aggiornato e ripulito: poi potremmo fare dei confronti in aree in cui di dati si sovrapponogno per vedere eventuali differenze.

I dati sono e saranno, in questa fase, riferiti ad epoche diverse (ad esempio quelli del Piemonte sono aggiornati ogni mese da dichiarazione ARPA Piemonte ....), e quindi difficile avere un dato omogeneo a livello temporale su tutto il territorio nazionale (vistco he MInambi non aggiorna la sua vista d'insieme ....)

Mi spiace di non avere notizie più "risolutive" ...

Buona serata

Cesare Gerbino

Il giorno 12 maggio 2016 10:03, Matteo Brunati notifications@github.com ha scritto:

@aborruso https://github.com/aborruso al volo: ottima l'idea di inserire un readme con le note sulla fonte all'interno delle singole cartelle, ci fa fare meno casino. Per la datazione esatta dei dati forse @cesaregerbino https://github.com/cesaregerbino è la persona di riferimento: io rischio di dire panzane.

— You are receiving this because you were mentioned. Reply to this email directly or view it on GitHub https://github.com/spaghetti-open-data/code4health-amianto/issues/2#issuecomment-218687288