Open CriMenghini opened 6 years ago
Il fabbisogno standard viene determinato attraverso OLS a partire da N variabili
DOMANDE:
Aggiungo una nota per coloro che stanno utilizzando i dati open civitas e che hanno in mente di utilizzare un algoritmo di clusterizzazione sui fabbisogni: nel documento (13 settembre 2016) che descrive la metodologia viene spiegato dettagliatamente come nel calcolo del fabbisogno per i rifiuti venga utilizzata una variabile CLUSTER, che specifica a quale cluster ciascun comune è stato assegnato. I cluster (15) sono stati determinati a partire da un set di variabili, che poi è stato ridotto utilizzando PCA. Mi sembra di capire che l'informazione relativa al cluster venga poi utilizzata per stimare il fabbisogno dei comuni (almeno in alcuni casi). Nel caso si voglia fare un'analisi con clusterizzazione, credo sia importante capire come i dati siano già stati clusterizzati in precedenza.
Credo che il file http://www.opencivitas.it/dataset/2013-comuni-determinanti-servizio-rifiuti contenga i dati utilizzati per la regressione nel calcolo dei fabbisogni. Forse potremmo chiedere a SOSE info a riguardo e valutare se scaricare anche questi dati? Questo file contiene la specifica di appartenenza di ciascun comune a ciascun cluster.
RIF CAT_DET_COD_1, ..., CAT_DETCOD[N] sono i pesi stimati con Ordinary Least Squares (OLS), associati a tali variabili?
Se ho capito bene i valori di queste variabili rappresentano i Fabbisogni dei Comuni interpolati utilizzando una regressione quantilica (ref. Approfondimento metodologico relativo alla regressione quantilica). Questi fabbisogni sono stati creati:
Le tabella all' allegato 6 contiene i dati puntuali utilizzati per il modello.
[L'allegato 4](http://www.mef.gov.it/ministero/commissioni/ctfs/documenti/Nota_Metodologica_Fabbisogni_Province_x3_maggio_2016x_V2.pdf] fornisce un riferimento sul come e' stato composto il campione per la regressione.
Partendo dalla pagina 72 in doc sono presenti tutti valori di coefficienti stimati in base alle regressione quantilica.
Gli indicatori sono ottenuti applicando una funzione di Normalized Exponential Function per scalare tutto tra [0;1] (ref. slides).
mi sembra che quanto riportato sopra sia valido per le province. E' valido anche per i comuni? [Verifico e Modifico il commento sopra]
relativamente alla tematica rifiuti sto scorrendo i documenti Nota Fas 2016_1 pag.7 e Nota Fas 2016_2 pag 9 e capitolo 2. Il file Nota Fas 2016_2 nell'appendice D descrive come sono stati ottenuti i cluster dei comuni (k-means, PCA).
@CriMenghini
rappresentano la ripartizione in millesimi dei fabbisogni dei comuni sulle varie voci analizzate da Open Civitas. Metto un rif al notebook appena lo carico
row = df_serv_entrate.iloc[0]
sum(row.filter(regex="^CAT_*")) # = 1.0
Potreste definire analiticamente e concettualmente i valori di CAT_DET_COD_1, ..., CAT_DETCOD[N], COEFF_TEORICO, IND1,..., IND[N], LQP_COD_1, ..., LQPCOD[N], LQP_COD_S per ciascun servizio (ovvero dei campi nell'header dei file relativi al fabbisogno) e se i valori sono stato normalizzati e rispetto a cosa (su tutti i servizi /su tutti i comuni)?
Ci sembra di capire che i fabbisogni 2010 e 2013 sono stati calcolati con metodi diversi (funzione di costo/funzione di spesa) a causa di un aggiornamento delle procedure. E' corretto? O sono state utilizzate le stesse metodologie? Potreste indicare per ciascun anno quale procedura è stata utilizzata ed indicarci in quale documento/paragrafo è spiegata la metodologia per ciascun anno?
Le variabili nella regressione sono relative a quale anno? Forse l'anno precedente? Perchè nella scheda relativa al dato viene specificato 2010-2013, e 2013-2015, e non solo 2010 e 2013? In generale non e' ben chiaro il criterio che associa 2010 e 2013 alle altre variabili presenti nei dataset, avete maggiori informazioni?
abbiamo letto qui http://www.mef.gov.it/ministero/commissioni/ctfs/documenti/PRESENTAZIONE_SOSE_CTFS_3MARZO_2016.pdf che un obiettivo e' quello di raccogliere i dati ogni anno, avete un aggiornamento dei dati attuali? Sarebbe bello poter avere i dati anno per anno.
Chiedere informazioni relative alle variabili:
[x] CAT_DET_COD_1
[x] CAT_DET_COD_2
[x] CAT_DET_COD_3
[x] CAT_DET_COD_4
[x] CAT_DET_COD_5
[ ] LQP_COD_4
[ ] LQP_COD_5
[ ] LQP_COD_6