opendatasicilia / informa-covid19

Buone pratiche di comunicazione pubblica dei dati COVID19 da parte dei comuni
https://informacovid.opendatasicilia.it/
Creative Commons Attribution 4.0 International
4 stars 0 forks source link

Predisporre CSV comuni italiani #7

Closed gpirrotta closed 3 years ago

gpirrotta commented 3 years ago

Predisporre un file CSV da caricare su github dei comuni italiani, con le seguenti informazioni:

gabacode commented 3 years ago

Grazie @gpirrotta . Mi sto basando sull'Elenco codici statistici e denominazioni delle unità territoriali, sulla Popolazione residente al 1° gennaio 2020, calcolando le coordinate con GeoPy. In totale si tratta di 7904 Comuni. Il numero di abitanti in 11 nuovi comuni non era presente nel foglio dell'ISTAT, quindi li ho aggiunti manualmente. In particolare si tratta dei Comuni di:

Ho uppato il file qui.

Edit: Utilizzando questo file dell'ISTAT, invece della query, i comuni che non contengono dati relativi alla popolazione sono solo 4.

aborruso commented 3 years ago

@gabacode alcune note/proposte:

Il primo è un punto importante. Gli altri due, sono tante delle opzioni possibili

pigreco commented 3 years ago

@gabacode il Comune di Misiliscemi è nato da pochissimo (come porzione del Comune di Trapani) e ho visto che hai messo la popolazione 8.669, mentre la popolazione di Trapani è 65.841; forse occorre togliere la popolazione di Misiliscemi da quella di Trapani?

dennisangemi commented 3 years ago

Buongiorno, confrontando le informazioni che dovrebbero essere presneti nel CSV suggerite da @gpirrotta e lo schema dati unico di @gabacode, ho notato che nel CSV anagrafica comuni è assente il campo "distretto". Come procedere? Eliminiamo il campo "distretto" dallo schema dati?

dennisangemi commented 3 years ago

In gsheet, quando uso vlookup per attingere tutte le info dal file che sta preparando @gabacode , è necessario (se non sbaglio) che la prima colonna sia "comune_denominazione".

Che ne dite di modificare l'ordine delle colonne del CSV che sta preparando @gabacode come di seguito?

gabacode commented 3 years ago

@gabacode alcune note/proposte:

  • al codice ISTAT, per renderlo più standard, è meglio applicare uno 0 padding e portarlo 6 caratteri (ad esempio da 1801 a 001801);
  • potremmo mettere in una cartella script, il codice con cui produciamo i file di output, in modo da potere ripetere autonomamente pipeline, aggiungere pezzi, ecc.. Quindi qui ad esempio script/dati-popolazione;
  • farei una cartella dati, e ci metterei questa cartella che hai creato oggi. Quindi qui ad esempio dati/dati-popolazione

Il primo è un punto importante. Gli altri due, sono tante delle opzioni possibili

Ho sistemato e aggiunto degli scripts per automatizzare il processo. Il processo dura circa un'ora, rispettando il timeout default di GeoPy. I nuovi files generati aggiungeranno il padding 0, ma al momento non contengono i dati relativi alla popolazione di Borgo d'Anaunia, Novella, Ville di Fiemme e Misiliscemi (settati a 0), non essendo contenuti nei dati ISTAT 2020. Questa volta ho utilizzato il dataset contenuto in questo link, e raggruppato per comune_codice_istat, prima avevo raggruppato per comune_denominazione, il che portava qualche problema in termine di Comuni con lo stesso nome, adesso risolto. Andrebbe generato il nuovo elenco-comuni-italiani.csv

@gabacode il Comune di Misiliscemi è nato da pochissimo (come porzione del Comune di Trapani) e ho visto che hai messo la popolazione 8.669, mentre la popolazione di Trapani è 65.841; forse occorre togliere la popolazione di Misiliscemi da quella di Trapani?

E' una buona idea! Pero' ho preso il numero 8.669 da Wiki, con fonte Itacanotizie.it mentre la popolazione di Trapani è ISTAT 2020. Non so quanto possa essere attendibile, cosa conviene fare?

Buongiorno, confrontando le informazioni che dovrebbero essere presneti nel CSV suggerite da @gpirrotta e lo schema dati unico di @gabacode, ho notato che nel CSV anagrafica comuni è assente il campo "distretto". Come procedere? Eliminiamo il campo "distretto" dallo schema dati?

Effettivamente, pensando ai Comuni per l'immissione dati, a questo punto penso sia più logico eliminare il campo "distretto" e aggiungere magari "provincia" (es. "PA", "EN" etc..) che ne pensate?

In gsheet, quando uso vlookup per attingere tutte le info dal file che sta preparando @gabacode , è necessario (se non sbaglio) che la prima colonna sia "comune_denominazione".

Che ne dite di modificare l'ordine delle colonne del CSV che sta preparando @gabacode come di seguito?

  • comune_denominazione
  • comune_codice_istat
  • latitudine
  • longitudine
  • popolazione
  • provincia_denominazione
  • provincia_sigla
  • regione_denominazione
  • regione_codice

Per me va bene, si può aggiungere un riordine delle colonne alla fine dello script main.py, che al momento "segue" un pò l'ordine ISTAT. Che ne pensate? @aborruso @gpirrotta @pigreco

dennisangemi commented 3 years ago

Effettivamente, pensando ai Comuni per l'immissione dati, a questo punto penso sia più logico eliminare il campo "distretto" e aggiungere magari "provincia" (es. "PA", "EN" etc..) che ne pensate?

A me sembra un'ottima idea!