Closed giacomo-carugati closed 4 months ago
Pure io ho fatto 6/10. Allego le mie risposte
TRUE -> FWER >= FDR per definizione; TRUE -> Questa potrebbe essere sbagliata, perché E[V/R] <= 10% e non =; FALSE -> Bonferroni non controlla l'FDR, ma l'FWER; TRUE -> B&H controlla l'FDR Questa l'ho fatta uguale, e sono ugualmente dubbioso sulla seconda risposta.
TRUE -> (Come jack) Esatto, vogliamo trovare y_hat il più vicino possibile ad y in senso Euclideo (perché la covarianza del residuo è sigma^2 * Identità; TRUE -> io ho semplicemente ignorato quel serially e mi sono detto che non ammettendo correlazione nei residui a prescindere da serially o qualsiasi avverbio questa era vera. Però guardando ora su internet e sentendo quello che dici tu potrei aver cannato. FALSE -> (Come jack) Non è un requisito, può succedere che ci siano colonne dipendenti, e in quel caso di ha collinearity; FALSE -> (Come jack) Anche qui, se la matrice non è full-rank, si lavorerà con la sua versione ridotta;
TRUE -> I Bonferroni sono la versione corretta dei one-at-a-time e quindi gli intervalli sono sempre più larghi; FALSE -> Se k è molto alto, si finisce ad avere dei Bonferroni larghissimi (non si rigetta mai H0), quindi anche più dei simultaneous T2; FALSE -> Spesso si usa k = 2 negli esercizi e si vede che i Bonferroni sono più corti dei simultaneous; Questa l'ho messa come te, ma ho un dubbio sulla seconda risposta. Diciamo che la grandezza dei Bonferroni dipende da k. Più k è alto più diventano grandi. Usiamo la correzione per dire ok noi vogliamo essere sicuri al 90% globalmente sui k test e non sul singolo test. I simultaneous garantiscono un livello di confidenza di 90% (per dire) per ogni possibile combinazione lineare della media, cioè per ogni a appartenente a Rp, cioè un numero infinto. Quindi alla fine per quanto prenda grande k non riuscirò mai a raggiungere l'infinito dei SIMCI. C'è da dire però che dietro ai due c'è un background matematico diverso, cioè sono due distribuzioni differenti e la correzione che si applica nei Bonferroni è abbastanza buttata lì, senza tenere conto di distribuzioni e roba così. In più negli appunti ho proprio scirtto: "for k->inf this interval [Bonferroni] will be larger than F intervals [SIMCI]. Good only for small k"
FALSE -> L'FDA è equivalente all'LDA, che è un Bayes classifier; TRUE -> È esattamente ciò che ha dimostrato FIsher; FALSE -> Non è un caso particolare, è proprio l'LDA; FALSE -> Non è QDA Pure questa l'ho fatta come te e pure qui dubbio, un caso particolare è un modo molto del cavolo di metterla. Io non so chi è venuto prima, l'LDA è un caso particolare di FIsher o Fisher è un caso particolare di LDA? Potrei dire anche come te che si l'LDA e Fisher sono la stessa cosa. Non so mi sembra posta molto male come risposta.
FALSE -> Non capisco se si riferisca a tutti i loadings o solo a quelli di una componente... in ogni caso dovrebbero sommare ad 1 i quadrati relativi ad ogni variabile originale; TRUE -> Sì, compongono la base ortonormale individuata dalla PCA; FALSE -> No, le componenti possono assumere ogni valore tra -1 e 1; FALSE -> Quello sono gli scores; Come te, però non sono sicuro di quello che dici nella prima risposta. Perchè dovrebbero sommare ad 1 i quadrati relativi ad ogni varaibaile originale? Perchè gli autovettori di sono normalizzati?
TRUE -> Non so se la risposta fosse specifica per la multiple regression analysis, come a dire che in quella singola non valga, però io non l'ho vista così e non l'ho spuntata; FALSE -> Quello lo fa un semplice test con l'F-statistic; FALSE -> Non saprei a cosa possa riferirsi... forse a qualcosa di simile a Ridge/Lasso? In ogni caso non Cook; FALSE -> Quello lo fa il VIF; FALSE -> Quello lo fa l'R-quadro; Come te. Nella terza voleva fregarti perchè la Cook distance è una Mahanalobis distance e quindi c'è il concetto di correzione solo che in realtà viene usata per calcolare la distanza tra due vettori di coefficienti, non tra le variabili.
TRUE-> Probabilmente l'ho interpretata male e ho pensato che applicando il logaritmo sia a sinistra che a destra avremmo ottenuto un modello lineare nei coefficienti. FALSE -> (vedi sopra) FALSE-> [Dubbio sotto] Chiede di trasformare solo la y e se la esponenziassimo a questo punto direi che avremmo un modello per la logistic regression; TRUE -> Così com'è, i coefficienti non sono lineari; Detto questo, che è la logistic regression? Quando ne ha parlato?
FALSE -> Non basta solo che le distribuzioni marginali siano Gaussiane, ma tutte le possibili combinazioni lineari della multivariata; TRUE -> Sì, è una delle frecce d'implicazione della proprietà detta prima; FALSE -> Se uno trova una combinazione lineare che non è Gaussiana, allora la multivariata non è Gaussiana; TRUE -> Sì, le marginali derivano da dei tipi di combinazioni lineari particolari; Come te
TRUE -> Sì, ci dà un'indicazione sulla variabilità spiegata dal modello; TRUE -> Sì, e non è una cosa positiva overfittare; FALSE -> No, è un coseno quadro, quindi tra 0 e 1; TRUE -> Quando i modelli hanno un numero simile di parametri, si può guardare all'R-quadro (e ad altre metriche) per fare una scelta; Come te.
Io penso di aver sbagliato la 10, la 4,la 2, e boh a sto punto la 1 che quindi voleva proprio il minore uguale.
Anche io ho fatto 6/10, comincio a commentare quelle un attimo più strane e poi vedo quelle su cui siamo in disaccordo.
You are running a large-scale hypothesis testing procedure that guarantees you a False Discovery Rate (FDR) at level 10%. Indicate the true statements:
Indicate which assumptions are consistent with Ordinary Least Squares (OLS):
We are considering confidence intervals for linear combinations of the mean.
Fisher Discriminant Analysis
In Principal Component Analysis (PCA), the loadings:
Cook's distance is used
You are given the reported model: y = eβ0 x1β1 x2β2 eε Indicate the true statement(s):
Let X be a random vector with values in R^p. Indicate the true statements:
In a linear model, the coefficient of determination:
You are given a dissimilarity matrix between N statistical units. Which of the following methods could you apply to cluster the units?
Boh ora provo a fare un Excel ma mi sembra che siamo parecchio in disaccordo. Ho chiesto a Giuseppe e lui ha fatto 5/10 per cui magari lo includo nell'Excel
Rispondo con ordine prima a Filo e poi al Markero sugli aspetti che mi paiono più rilevanti.
Filo
Mark
Sul punto 2, quarta opzione, mi hai abbastanza convinto. Sul punto 4, terza opzione, ottima e dico OTTIMA osservazione: anche io l'ho segnato sugli appunti, ed effettivamente essendo tutto geometrico non c'è uno straccio di riferimento alle priors. Sarebbe carino verificare questa proprietà facendo un esercizio con LDA, prima con priors e poi senza, e fare anche la controparte FDA (o banalmente guardare le direzioni di discriminazione cosa fanno). Sul punto 5 mi sembra che in generale tu ti stia confondendo con gli scores (o il loro concetto associato lavorando direttamente sul modello). Sul punto 6, seconda opzione, sarebbe corretto quello che dici se anziché "variabile" ci fosse scritto tipo "data point". Sul punto 10 concordo.
Boh ora provo a fare un Excel ma mi sembra che siamo parecchio in disaccordo. Ho chiesto a Giuseppe e lui ha fatto 5/10 per cui magari lo includo nell'Excel
Purtroppo non credo ne ricaveresti qualcosa; forse incrociando le risposte di tutti i presenti all'appello potremmo ricavare le soluzioni, ma neanche... Se vuoi prova, ma credo che possiamo basarci solo sul ragionamento.
Dati questi proficui confronti, provo a formulare quali secondo me potrebbero essere delle possibili soluzioni.
Laddove c'è tipo F/T vuol dire che metterei F ma sarei molto in dubbio; Laddove c'è tipo F (T) vuole dire che metterei quasi sicuramente F.
Ho trovato una possibile soluzione che, incrociando i risultati tra me, Filo, Marc, Beps e Luigi, torna. Non è detto che sia l'unica combinazione di risposte possibile che faccia tornare i conti (ne dubito fortemente), ma purtroppo non c'è tempo per verificare. Ora usiamo come test case quello di una persona che ha mandato il suo test sul gruppo e preghiamo; editerò il commento con il risultato del test.
Ecco la possibile soluzione:
Secondo me è un po' tirata per i capelli; ho rigirato completamente le risposte alla domanda 7. Ora capiamo.
[EDIT: il test è risultato positivo, siamo pronti a lanciare il nostro modello sul mercato]
🙏🏻
Ragazzi, potranno non darci le soluzioni della parte di teoria, potremo non avere mai la certezza di quali crocette fossero da segnare, però possiamo ragionarci insieme; anche perché nulla vieta che decidano di riproporne alcune, dato che non si conoscono le soluzioni. A quanto ne so, il quesito che hanno tolto dalla correzione è quello sulla dissimilarity matrix (il 10 in questo caso), che praticamente tutti hanno sbagliato. Io ho fatto 6/9. Lascio qui l'intero from con le mie risposte ed annesse spiegazioni/ragionamenti.
TRUE -> FWER >= FDR per definizione; TRUE -> Questa potrebbe essere sbagliata, perché E[V/R] <= 10% e non =; FALSE -> Bonferroni non controlla l'FDR, ma l'FWER; TRUE -> B&H controlla l'FDR
TRUE -> Esatto, vogliamo trovare y_hat il più vicino possibile ad y in senso Euclideo (perché la covarianza del residuo è sigma^2 * Identità; FALSE -> Ammetto di avere avuto dubbi fino all'ultimo per via di quel "serially", che io ho interpretato come "residuo 1 è uncorrelato al residuo 2, il residuo 2 è uncorrelato al 3, ma nulla vieta che il residuo 1 e 3 siano correlati" e di conseguenza essendo che tutti devono essere uncorrelati fra loro, non l'ho spuntata; FALSE -> Non è un requisito, può succedere che ci siano colonne dipendenti, e in quel caso di ha collinearity; FALSE -> Anche qui, se la matrice non è full-rank, si lavorerà con la sua versione ridotta;
TRUE -> I Bonferroni sono la versione corretta dei one-at-a-time e quindi gli intervalli sono sempre più larghi; FALSE -> Se k è molto alto, si finisce ad avere dei Bonferroni larghissimi (non si rigetta mai H0), quindi anche più dei simultaneous T2; FALSE -> Spesso si usa k = 2 negli esercizi e si vede che i Bonferroni sono più corti dei simultaneous;
FALSE -> L'FDA è equivalente all'LDA, che è un Bayes classifier; TRUE -> È esattamente ciò che ha dimostrato FIsher; FALSE -> Non è un caso particolare, è proprio l'LDA; FALSE -> Non è QDA
FALSE -> Non capisco se si riferisca a tutti i loadings o solo a quelli di una componente... in ogni caso dovrebbero sommare ad 1 i quadrati relativi ad ogni variabile originale; TRUE -> Sì, compongono la base ortonormale individuata dalla PCA; FALSE -> No, le componenti possono assumere ogni valore tra -1 e 1; FALSE -> Quello sono gli scores;
TRUE -> Non so se la risposta fosse specifica per la multiple regression analysis, come a dire che in quella singola non valga, però io non l'ho vista così e non l'ho spuntata; FALSE -> Quello lo fa un semplice test con l'F-statistic; FALSE -> Non saprei a cosa possa riferirsi... forse a qualcosa di simile a Ridge/Lasso? In ogni caso non Cook; FALSE -> Quello lo fa il VIF; FALSE -> Quello lo fa l'R-quadro;
FALSE -> (vedi sotto) FALSE -> (vedi sotto) TRUE -> Chiede di trasformare solo la y e se la esponenziassimo a questo punto direi che avremmo un modello per la logistic regression; TRUE -> Così com'è, i coefficienti non sono lineari;
FALSE -> Non basta solo che le distribuzioni marginali siano Gaussiane, ma tutte le possibili combinazioni lineari della multivariata; TRUE -> Sì, è una delle frecce d'implicazione della proprietà detta prima; FALSE -> Se uno trova una combinazione lineare che non è Gaussiana, allora la multivariata non è Gaussiana; TRUE -> Sì, le marginali derivano da dei tipi di combinazioni lineari particolari;
TRUE -> Sì, ci dà un'indicazione sulla variabilità spiegata dal modello; TRUE -> Sì, e non è una cosa positiva overfittare; FALSE -> No, è un coseno quadro, quindi tra 0 e 1; TRUE -> Quando i modelli hanno un numero simile di parametri, si può guardare all'R-quadro (e ad altre metriche) per fare una scelta;
Qua mi sono sostanzialmente basato brute-force sull'help di R, per il quale l'unica funzione che non poteva prendere in ingresso una matrice di dissimilarità era il K-means, tuttavia tutti si basano su un concetto di distanza quindi forse era corretto segnarli tutti.
Io mi sento che potrei aver sbagliato la 1, la 2 e la 10, ma ne mancherebbe una all'appello (forse la 7?) Confrontiamoci su come avete risposto voi.
[EDIT: se volete, per far veloce, credo che possiate andare sui 3 puntini a questa issue, fare "Edit" e copiarvi/incollarvi la struttura del form, così modificate agilmente le risposte]