Discuss method to associate uncertainty to filtered parameters : Blasques' and/or Buccheri's methodology

domenicodigangi commented 3 years ago

Dove Aggiungerlo:

Applicazione a US congress in fondo al paper. E' necessario? Quella figura comunica che uno dei due parametri e time varying come risultato del test di Calvori
Applicazione eMid: Cosa mostreremmo?
In simulazione. Quale modello, quali tests?

domenicodigangi commented 3 years ago

Nella call di 12/4/2020 abbiamo concordato di analizzare la coverage in simulazione sul toy model, aggiungendo anche la filtering uncertainty

domenicodigangi commented 3 years ago

Recap di quanto fatto discusso in #29

domenicodigangi commented 3 years ago

Steps necessari

[x] Implementare metodo di white per stimare la matrice di varianza covarianza degli stimatori dei parametri statici per i filtri score driven DirBin0Rec0
[x] Calcolo coverage da metodo di blasuqes
[x] Calcolo coverage metodo Buccheri

domenicodigangi commented 3 years ago

La componente dovuta alla filtering uncertainty non sembra aggiungere molto alla parameter uncertainty. Filt + par :area rosa solo filtering : linee verdi

filter_and_conf_bands_mle_N_50_T_200

filter_and_conf_bands_pmle_N_50_T_200

filter_and_conf_bands_mle_N_300_T_200

filter_and_conf_bands_pmle_N_300_T_200

Le confidence bands sono molto conservative, con coverages piú alte del valore nominale. All aumentare di T le bande si allargano. Questo mi sembra controintuitivo e potrebbe indicare un errore. cover_conf_95_dgp_sin_dir_bin0_rec0_T_100

domenicodigangi commented 3 years ago

Le confidence bands, e rispettive coverages, nelle figure al commento precedente sono errate. Praticamente, per eliminare piccoli autovalori negativi nello stimatore di white della matrice di covarianza delle MLE ( B^(-1) A B^(-1) ) sommavo un valore fisso (10^-3) all'autovalore negativo. Inoltre, @gbormetti ha sottolineato che l'argomento per giustificare le confidence bands relative alla parameter e filtering uncertainty potrebbe non essere valido per processi deterministici.

Ho ricontrollato il codice e proceduto come segue:

Verificato che la presenza di autovalori negativi fosse dovuto a errori numerici. Se la matrice di covarianza ha un autovalore negativo, controllo che questo non segua da un autovalore negativo dell'hessiana (in tal caso non uso la stima, ma non succede mai). Riscontro che gli autovalori negativi sono sempre dell'ordine della precisione macchina. Quando presenti, risolvo aggiungendo all'autovalore minimo il doppio della precisione macchina ( 10^-12). É un numero uguale per ogni diversa simulazione , ma anche il minimo utilizzabile.
Utilizzo come dgp un AR1 nello spazio delle statistiche fisiche alpha e beta. Se, per almeno un t, gli alpha e beta simulati escono dalle regioni accettabili, scarto la simulazione e genero un nuovo path dal solito AR1. Dal path ottenuto per alpha e beta, ricavo un path per theta e eta invertendo, per ogni time step, la relazione tra questi ultimi e i valori medi di alpha e beta.
Ho aggiunto all'overleaf una descrizione quantitativa di come definisco le medie temporali e i bounds alle dinamiche dei dgp nel piano (alpha, beta ).
Ripeto le simulazioni e il calcolo delle coverages per l'AR1 al punto precedente. Seguono le figure a. Esempi di filtro misspecified con dgp AR1 b. Box plots delle coverages. Per ogni coppia T,N simulo 50 paths diversi dall'AR1, stimo e calcolo la coverage media sul tempo per i due parametri separatamente. Da queste distribuzioni empiriche delle coverages mediate sul tempo, costruisco i boxplots.

filter_and_conf_bands_mle_N_300_T_300_AR

cover_conf_95_dgp_AR_dir_bin0_rec0_BUCC_ML

Possibili spiegazioni eventuale scarsa qualitá delle confidence bands:

Errori nella mia implementazione
La distribuzione assunta per le MLE e PMLE dei parametri statici non é corretta. E.g. non normale a campione finito o la matrice di varianza stimata non é corretta.
Non stiamo catturando tutta la filtering

Possibili soluzioni che sto esplorando per ottenere delle confidence bands che abbiano una coverage piú vicina al valore nominale:

a. ripetere tests con filtri in cui lo score viene riscalato diversamente (Info^(-1/2), godambe matrix dell'osservazione opportunamente riscalata). Potrebbe andare nella direzione di catturare meglio la filtering unceratinty
b. analisi della distribuzione degli stimatori dei parametri statici del filtro SD. Potremmo campionare la distribuzione empirica ottenuta dimulando il dgp SD e ristimando molte volte. Un parametric bootstrap, come fatto nel caso statico per PMLE in ERGM, vedi primo punto in https://github.com/domenicodigangi/ScoreDrivenExponentialRandomGraphs/issues/33#issuecomment-767890040
c. Potremmo usare il non parametric bootstrap proposto da Cramer e desmarais in contesto TERGM . Vedi secondo punto di https://github.com/domenicodigangi/ScoreDrivenExponentialRandomGraphs/issues/33#issuecomment-767890040

domenicodigangi commented 3 years ago

Ho trovato un errore nella mia implementazione. Mi sono allineato a quanto suggerito dall'Hamilton (pg. 144 credo ) per l'inferenza di parametri che devono rispettare dei bounds (e.g. 0<B<0 nei modelli SD). In pratica, anche se suggerisce di ottimizzare in uno spazio unbounded (cosa che facevo giá, con link functions), consiglia di associare l'incertezza ai parametri restricted.
Se prendiamo a riferimento la distribuzione dei parametri statici da parametric bootstrap, sembra che lo stimatore di white non sia molto accurato . Nelle figure seguenti N=150, T=300

bootstrap_distrib_white_estimators_cov_mat_SD_stat_par

In particolare tende a sottostimare la diagonale della matrice di varianza covarianza

bootstrap_distrib_white_estimators_diagonal_cov_mat_SD_stat_par

domenicodigangi commented 3 years ago

Esempi di confidence bands da stimatore di white e da parametric bootstrap. Il dgp é Score Driven filter_and_conf_bands_white_mle_N_50_T_300_SD filter_and_conf_bands_boot_mle_N_50_T_300_SD

Non ho ancora calcolato le coverages perché servirebbe parecchio tempo e temo che continuerebbero a essere lontane dal valore nominale. Nelle prove fatte ho ottenuto risultati sempre simili.

Al momento come next steps ho in mente:

Nuova iterazione di check del codice.
Riscalare lo score
Usare non parametric bootstrap

domenicodigangi commented 3 years ago

Lista di recenti updates

Nel toy model statico, lo score scala come N^2, a parità di parametri MLE e osservazioni. Quindi, senza riscalamento, DGPs SD , con gli stessi parametri statici, generano dinamiche molto diverse al variare di N (increasingly variable al crescere di N). Questo rendeva complicato il confronto delle coverages di DGPs con parametri uguali ma N diversi.
Riscalare per l'hessiano, attenua questo effetto. Tutti risultati discussi in seguito usano filtri e DGPs SD riscalati per la diagonale dell'hessiano.
Sembra che le bande di confidenza, anche per la sola parameter uncertainty, sono tendenzialmente molto conservative (piu' larghe del necessario), quando i latenti "variano poco", mentre diventano eccessivamente strette quando la "variabilità" nei latenti aumenta:
- Confronto le coverages da parameter uncertainty per due DGPs SD che differiscono solo per il valore di A= 0.3 o 3, B = 0.98, e W fissato per avere unconditional mean al centro della zona di osservabilità. Nella figura seguente riporto i box plots delle coverages delle confidence bands al 95%, per i due DGPs. Sull'asse x aggiungo anche la media su tutti i paths simulati della standard deviation sul singolo path. Nel primo panel A=0.3 nel secondo A=3:

mle_cover_conf_par_unc_95_dgp_SD_low_dir_bin0_rec0

Direi che l'effetto dipende dallo stimatore "robusto" di Huber-White per la matrice di covarianza degli stimatori dei parametri statici (W, B, A). Di seguito le distribuzioni empiriche degli elementi sulla diagonale dello stimatore di White. L'asse x è in scala log10 e le linee verticali sono ottenute da parametric bootstrap.

distribution_white_estimators_dgp_SD_low_N_100_T_300

Risultati simili si hanno nel caso di DGP AR1. Seguono le coverages delle conf bands da filtro SD-PML per due AR con B = 0.98 e sigma= 0.01, in alto, e sigma= 0.1 in basso.
Osservo lo stesso effetto usando solo l'inverso dell'hessiano al posto dello stimatore di White. A meno di (sempre meno probabili) errori, direi che lo stimatore per la Varianza covarianza non funziona bene, nel range di N e T che abbiamo testato, quando i latenti "variano molto". Mentre le bande sono molto conservative quando i latenti non "variano troppo", ossia quando white funziona decentemente.
Se usiamo le stime della varianza covarianza da parametric bootstrap le coverages migliorano e non sembrano dipendere dalla variabilità dei latenti. Fatto solo per DGP SD, per problemi di costo computazionale (abbastanza difficili da risolvere, almeno per le coverages). Nel primo panel che segue A = 0.3, nel secondo A=3.

Il parametric bootstrap è utilizzabile come alternativa a white, ma analizzare le coverages diventa molto time consuming. Solo per T=300 e N=300 servirebbero circa un paio di settimane per rifare un boxplot. Per risolvere, ho sperimentato un bootstrap non parametrico ispirato a Statistical mechanics of networks: Estimation and uncertainty. Non sembra funzionare bene:

domenicodigangi commented 3 years ago

Ho verificato che l'information matrix equality è valida (penso che sia sempre valida per distribuzioni non fat tailed). Da ora in poi uso la sqrt della fisher (-hessian, negli ERGM) per riscalare lo score.
Assodato che il metodo di Buccheri et al per le bande di confidenza funziona quando i latenti variano poco, considero un DGP AR con sigma= 0.01
Come tentativo per rendere le bande meno conservative a T finito, ho testato la stima regolarizzata di Firth per i parametri SD. Aggiunge il determinante della info alla likelihood totale, per ridurre il bias a campione finito. Non sembra funzionare. E in effetti, non è stata proposta per migliorare la stima dell'incertezza ma ridurre il bias.

A questo punto direi che possiamo solo proporre le bande con i seguenti limiti:

sono valide quando i latenti variano poco.
sono molto conservative a campione finito. Ossia, la confidenza effettiva è piu' alta di quella nominale.

domenicodigangi / ScoreDrivenExponentialRandomGraphs

Discuss method to associate uncertainty to filtered parameters : Blasques' and/or Buccheri's methodology #32

Lista di recenti updates