giuseppeegentile / AppStatExams

1 stars 0 forks source link

2024-06-13 - Part A #30

Closed giacomo-carugati closed 4 months ago

giacomo-carugati commented 4 months ago

Ragazzi, potranno non darci le soluzioni della parte di teoria, potremo non avere mai la certezza di quali crocette fossero da segnare, però possiamo ragionarci insieme; anche perché nulla vieta che decidano di riproporne alcune, dato che non si conoscono le soluzioni. A quanto ne so, il quesito che hanno tolto dalla correzione è quello sulla dissimilarity matrix (il 10 in questo caso), che praticamente tutti hanno sbagliato. Io ho fatto 6/9. Lascio qui l'intero from con le mie risposte ed annesse spiegazioni/ragionamenti.

  1. You are running a large-scale hypothesis testing procedure that guarantees you a False Discovery Rate (FDR) at level 10%. Indicate the true statements:

TRUE -> FWER >= FDR per definizione; TRUE -> Questa potrebbe essere sbagliata, perché E[V/R] <= 10% e non =; FALSE -> Bonferroni non controlla l'FDR, ma l'FWER; TRUE -> B&H controlla l'FDR

  1. Indicate which assumptions are consistent with Ordinary Least Squares (OLS):

TRUE -> Esatto, vogliamo trovare y_hat il più vicino possibile ad y in senso Euclideo (perché la covarianza del residuo è sigma^2 * Identità; FALSE -> Ammetto di avere avuto dubbi fino all'ultimo per via di quel "serially", che io ho interpretato come "residuo 1 è uncorrelato al residuo 2, il residuo 2 è uncorrelato al 3, ma nulla vieta che il residuo 1 e 3 siano correlati" e di conseguenza essendo che tutti devono essere uncorrelati fra loro, non l'ho spuntata; FALSE -> Non è un requisito, può succedere che ci siano colonne dipendenti, e in quel caso di ha collinearity; FALSE -> Anche qui, se la matrice non è full-rank, si lavorerà con la sua versione ridotta;

  1. We are considering confidence intervals for linear combinations of the mean.

TRUE -> I Bonferroni sono la versione corretta dei one-at-a-time e quindi gli intervalli sono sempre più larghi; FALSE -> Se k è molto alto, si finisce ad avere dei Bonferroni larghissimi (non si rigetta mai H0), quindi anche più dei simultaneous T2; FALSE -> Spesso si usa k = 2 negli esercizi e si vede che i Bonferroni sono più corti dei simultaneous;

  1. Fisher Discriminant Analysis

FALSE -> L'FDA è equivalente all'LDA, che è un Bayes classifier; TRUE -> È esattamente ciò che ha dimostrato FIsher; FALSE -> Non è un caso particolare, è proprio l'LDA; FALSE -> Non è QDA

  1. In Principal Component Analysis (PCA), the loadings:

FALSE -> Non capisco se si riferisca a tutti i loadings o solo a quelli di una componente... in ogni caso dovrebbero sommare ad 1 i quadrati relativi ad ogni variabile originale; TRUE -> Sì, compongono la base ortonormale individuata dalla PCA; FALSE -> No, le componenti possono assumere ogni valore tra -1 e 1; FALSE -> Quello sono gli scores;

  1. Cook's distance is used

TRUE -> Non so se la risposta fosse specifica per la multiple regression analysis, come a dire che in quella singola non valga, però io non l'ho vista così e non l'ho spuntata; FALSE -> Quello lo fa un semplice test con l'F-statistic; FALSE -> Non saprei a cosa possa riferirsi... forse a qualcosa di simile a Ridge/Lasso? In ogni caso non Cook; FALSE -> Quello lo fa il VIF; FALSE -> Quello lo fa l'R-quadro;

  1. You are given the reported model: y = eβ0 x1β1 x2β2 eε Indicate the true statement(s):

FALSE -> (vedi sotto) FALSE -> (vedi sotto) TRUE -> Chiede di trasformare solo la y e se la esponenziassimo a questo punto direi che avremmo un modello per la logistic regression; TRUE -> Così com'è, i coefficienti non sono lineari;

  1. Let X be a random vector with values in R^p. Indicate the true statements:

FALSE -> Non basta solo che le distribuzioni marginali siano Gaussiane, ma tutte le possibili combinazioni lineari della multivariata; TRUE -> Sì, è una delle frecce d'implicazione della proprietà detta prima; FALSE -> Se uno trova una combinazione lineare che non è Gaussiana, allora la multivariata non è Gaussiana; TRUE -> Sì, le marginali derivano da dei tipi di combinazioni lineari particolari;

  1. In a linear model, the coefficient of determination:

TRUE -> Sì, ci dà un'indicazione sulla variabilità spiegata dal modello; TRUE -> Sì, e non è una cosa positiva overfittare; FALSE -> No, è un coseno quadro, quindi tra 0 e 1; TRUE -> Quando i modelli hanno un numero simile di parametri, si può guardare all'R-quadro (e ad altre metriche) per fare una scelta;

  1. You are given a dissimilarity matrix between N statistical units. Which of the following methods could you apply to cluster the units?

Qua mi sono sostanzialmente basato brute-force sull'help di R, per il quale l'unica funzione che non poteva prendere in ingresso una matrice di dissimilarità era il K-means, tuttavia tutti si basano su un concetto di distanza quindi forse era corretto segnarli tutti.

Io mi sento che potrei aver sbagliato la 1, la 2 e la 10, ma ne mancherebbe una all'appello (forse la 7?) Confrontiamoci su come avete risposto voi.

[EDIT: se volete, per far veloce, credo che possiate andare sui 3 puntini a questa issue, fare "Edit" e copiarvi/incollarvi la struttura del form, così modificate agilmente le risposte]

Filippobuda commented 4 months ago

Pure io ho fatto 6/10. Allego le mie risposte

  1. You are running a large-scale hypothesis testing procedure that guarantees you a False Discovery Rate (FDR) at level 10%. Indicate the true statements:

TRUE -> FWER >= FDR per definizione; TRUE -> Questa potrebbe essere sbagliata, perché E[V/R] <= 10% e non =; FALSE -> Bonferroni non controlla l'FDR, ma l'FWER; TRUE -> B&H controlla l'FDR Questa l'ho fatta uguale, e sono ugualmente dubbioso sulla seconda risposta.

  1. Indicate which assumptions are consistent with Ordinary Least Squares (OLS):

TRUE -> (Come jack) Esatto, vogliamo trovare y_hat il più vicino possibile ad y in senso Euclideo (perché la covarianza del residuo è sigma^2 * Identità; TRUE -> io ho semplicemente ignorato quel serially e mi sono detto che non ammettendo correlazione nei residui a prescindere da serially o qualsiasi avverbio questa era vera. Però guardando ora su internet e sentendo quello che dici tu potrei aver cannato. FALSE -> (Come jack) Non è un requisito, può succedere che ci siano colonne dipendenti, e in quel caso di ha collinearity; FALSE -> (Come jack) Anche qui, se la matrice non è full-rank, si lavorerà con la sua versione ridotta;

  1. We are considering confidence intervals for linear combinations of the mean.

TRUE -> I Bonferroni sono la versione corretta dei one-at-a-time e quindi gli intervalli sono sempre più larghi; FALSE -> Se k è molto alto, si finisce ad avere dei Bonferroni larghissimi (non si rigetta mai H0), quindi anche più dei simultaneous T2; FALSE -> Spesso si usa k = 2 negli esercizi e si vede che i Bonferroni sono più corti dei simultaneous; Questa l'ho messa come te, ma ho un dubbio sulla seconda risposta. Diciamo che la grandezza dei Bonferroni dipende da k. Più k è alto più diventano grandi. Usiamo la correzione per dire ok noi vogliamo essere sicuri al 90% globalmente sui k test e non sul singolo test. I simultaneous garantiscono un livello di confidenza di 90% (per dire) per ogni possibile combinazione lineare della media, cioè per ogni a appartenente a Rp, cioè un numero infinto. Quindi alla fine per quanto prenda grande k non riuscirò mai a raggiungere l'infinito dei SIMCI. C'è da dire però che dietro ai due c'è un background matematico diverso, cioè sono due distribuzioni differenti e la correzione che si applica nei Bonferroni è abbastanza buttata lì, senza tenere conto di distribuzioni e roba così. In più negli appunti ho proprio scirtto: "for k->inf this interval [Bonferroni] will be larger than F intervals [SIMCI]. Good only for small k"

  1. Fisher Discriminant Analysis

FALSE -> L'FDA è equivalente all'LDA, che è un Bayes classifier; TRUE -> È esattamente ciò che ha dimostrato FIsher; FALSE -> Non è un caso particolare, è proprio l'LDA; FALSE -> Non è QDA Pure questa l'ho fatta come te e pure qui dubbio, un caso particolare è un modo molto del cavolo di metterla. Io non so chi è venuto prima, l'LDA è un caso particolare di FIsher o Fisher è un caso particolare di LDA? Potrei dire anche come te che si l'LDA e Fisher sono la stessa cosa. Non so mi sembra posta molto male come risposta.

  1. In Principal Component Analysis (PCA), the loadings:

FALSE -> Non capisco se si riferisca a tutti i loadings o solo a quelli di una componente... in ogni caso dovrebbero sommare ad 1 i quadrati relativi ad ogni variabile originale; TRUE -> Sì, compongono la base ortonormale individuata dalla PCA; FALSE -> No, le componenti possono assumere ogni valore tra -1 e 1; FALSE -> Quello sono gli scores; Come te, però non sono sicuro di quello che dici nella prima risposta. Perchè dovrebbero sommare ad 1 i quadrati relativi ad ogni varaibaile originale? Perchè gli autovettori di sono normalizzati?

  1. Cook's distance is used

TRUE -> Non so se la risposta fosse specifica per la multiple regression analysis, come a dire che in quella singola non valga, però io non l'ho vista così e non l'ho spuntata; FALSE -> Quello lo fa un semplice test con l'F-statistic; FALSE -> Non saprei a cosa possa riferirsi... forse a qualcosa di simile a Ridge/Lasso? In ogni caso non Cook; FALSE -> Quello lo fa il VIF; FALSE -> Quello lo fa l'R-quadro; Come te. Nella terza voleva fregarti perchè la Cook distance è una Mahanalobis distance e quindi c'è il concetto di correzione solo che in realtà viene usata per calcolare la distanza tra due vettori di coefficienti, non tra le variabili.

  1. You are given the reported model: y = eβ0 x1β1 x2β2 eε Indicate the true statement(s):

TRUE-> Probabilmente l'ho interpretata male e ho pensato che applicando il logaritmo sia a sinistra che a destra avremmo ottenuto un modello lineare nei coefficienti. FALSE -> (vedi sopra) FALSE-> [Dubbio sotto] Chiede di trasformare solo la y e se la esponenziassimo a questo punto direi che avremmo un modello per la logistic regression; TRUE -> Così com'è, i coefficienti non sono lineari; Detto questo, che è la logistic regression? Quando ne ha parlato?

  1. Let X be a random vector with values in R^p. Indicate the true statements:

FALSE -> Non basta solo che le distribuzioni marginali siano Gaussiane, ma tutte le possibili combinazioni lineari della multivariata; TRUE -> Sì, è una delle frecce d'implicazione della proprietà detta prima; FALSE -> Se uno trova una combinazione lineare che non è Gaussiana, allora la multivariata non è Gaussiana; TRUE -> Sì, le marginali derivano da dei tipi di combinazioni lineari particolari; Come te

  1. In a linear model, the coefficient of determination:

TRUE -> Sì, ci dà un'indicazione sulla variabilità spiegata dal modello; TRUE -> Sì, e non è una cosa positiva overfittare; FALSE -> No, è un coseno quadro, quindi tra 0 e 1; TRUE -> Quando i modelli hanno un numero simile di parametri, si può guardare all'R-quadro (e ad altre metriche) per fare una scelta; Come te.

  1. You are given a dissimilarity matrix between N statistical units. Which of the following methods could you apply to cluster the units?

Io penso di aver sbagliato la 10, la 4,la 2, e boh a sto punto la 1 che quindi voleva proprio il minore uguale.

ScarpMarc commented 4 months ago

Anche io ho fatto 6/10, comincio a commentare quelle un attimo più strane e poi vedo quelle su cui siamo in disaccordo.

  1. You are running a large-scale hypothesis testing procedure that guarantees you a False Discovery Rate (FDR) at level 10%. Indicate the true statements:

    • [X] The Family Wise Error Rate is larger than or equal to 10%.
    • [X] The expected proportion of true H0s that will be rejected over the total of rejected hypothesis is 10% (setting by convention the proportion to zero if there are no rejections)
    • [ ] If the tests are not independent, one can control the FDR at level 10% with the Bonferroni strategy
    • [X] If the tests are independent, one can control the FDR at level 10% with the Benjamini & Hochberg strategy TRUE -> dalla teoria FWER >= FDR TRUE -> FALSE -> TRUE ->
  2. Indicate which assumptions are consistent with Ordinary Least Squares (OLS):

    • [X] The residuals are homoscedastics
    • [X] The residuals are serially uncorrelated
    • [ ] The covariates are pairwise independent
    • [X] The data matrix is full-rank TRUE -> TRUE -> Anche io ho bellamente ignorato il serially FALSE -> TRUE -> Jack: Io qua ho messo true perchè di per sè l'OLS vorrebbe la Z full rank, poi è vero che c'è il modo per farlo senza.
  3. We are considering confidence intervals for linear combinations of the mean.

    • [X] One-at-a-time t2 intervals cannot be wider than Bonferroni confidence intervals
    • [ ] Bonferroni intervals are always narrower than simultaneous T2 intervals
    • [ ] Bonferroni intervals are always wider than simultaneous T2 intervals TRUE -> Qua ho pensato che se usi un Bonferroni con un solo confronto dovrebbe venire uguale ad un one-at-a-time e quindi vuol dire che sono per forza più piccoli o uguali, ma magari mi sbaglio. In ogni caso dovrebbe essere vera. FALSE -> i Bonferroni esistono apposta per questo FALSE -> se usi abbastanza Bonferroni probabilmente arrivi ad essere uguale ai simultaneous T2.
  4. Fisher Discriminant Analysis

    • [ ] Generates a classifier different from a Bayes classifier
    • [X] Does not require the assumption of normality
    • [X] Is a particular case of LDA
    • [ ] Is a particular case of QDA FALSE -> TRUE -> TRUE -> Io ho segnato negli appunti che Fisher è identico ad LDA se i priors sono gli stessi. FALSE ->
  5. In Principal Component Analysis (PCA), the loadings:

    • [ ] Always sum to 1
    • [ ] Are the coefficients of the change-of-basis matrix P
    • [ ] Are necessarily positive
    • [X] Are the projection of the observations on the directions of the principal components FALSE -> FALSE -> Qua ho messo false perchè in teoria sono i coefficienti della combinazione, sarebbe poi la stessa cosa? Non so perchè coefficienti di una matrice mi viene da pensare tutte le entries, che sarebbero di più. FALSE -> TRUE-> Ho confuso con gli scores
  6. Cook's distance is used

    • [X] In identifying influential observations in multiple regression analysis.
    • [X] In determining the significance of an independent variable.
    • [X] As a correction of the Euclidean distance in the features space to account for correlation between the variables
    • [ ] In determining if there is significant collinearity.
    • [X] In determining if the overall regression model is significant. TRUE -> TRUE -> Ho messo true perchè in teoria se la distance è alta ti dice quanto è influential quella variabile e l'ho interpretato così TRUE -> Boh ho messo true perchè dalla formula sembrava sensato FALSE -> TRUE -> Mi sa che questa domanda l'ho completamente scazzata
  7. You are given the reported model: y = eβ0 x1β1 x2β2 eε Indicate the true statement(s):

    • [X] This model can be made linear by a logarithmic transformation of the response variable.
    • [ ] This model can be made linear by a square root transformation of the response variable.
    • [ ] This model can be made linear by a exponential transformation of the response variable.
    • [ ] You cannot use the lm() command in R to fit this model. TRUE -> FALSE -> FALSE -> FALSE -> Non so perchè non ci abbia pensato :(
  8. Let X be a random vector with values in R^p. Indicate the true statements:

    • [ ] X is multivariate Gaussian if and only if the marginal distributions of X are univariate Gaussian
    • [X] If X is multivariate Gaussian, any linear combination of the coordinates of X is univariate Gaussian
    • [ ] If one can find a linear combination of the coordinates of X that is univariate Gaussian, then X is multivariate Gaussian
    • [X] If X is multivariate Gaussian, the marginal distributions of X are univariate Gaussian
  9. In a linear model, the coefficient of determination:

    • [X] Allows to assess the fit of the model to the data
    • [X] Indicates perfect interpolation if it is equal to 1
    • [ ] Can take values between -1 and 1
    • [ ] It's a metric to perform model selection between models of similar complexity TRUE -> TRUE -> FALSE -> FALSE -> Anche qua non so perchè non l'abbia messa, probabilmente ho svarionato
  10. You are given a dissimilarity matrix between N statistical units. Which of the following methods could you apply to cluster the units?

    • [X] k-nearest neighbours
    • [X] Hierarchical clustering with average linkage
    • [ ] K-means
    • [X] Hierarchical clustering with Ward linkage
    • [X] DBSCAN Qui la ratio è che dobbiamo per forza usare un metodo basato sulle distanze. TRUE -> Qua mi sono dimenticato che KNN è classificazione e non clustering... TRUE -> Utilizza una metrica per vedere quanto sono vicini gli elementi FALSE -> Abbiamo bisogno dei centroidi TRUE -> Utilizza una metrica per vedere quanto sono vicini gli elementi TRUE -> Utilizza le distanze per calcolare le neighbourhood
ScarpMarc commented 4 months ago

Boh ora provo a fare un Excel ma mi sembra che siamo parecchio in disaccordo. Ho chiesto a Giuseppe e lui ha fatto 5/10 per cui magari lo includo nell'Excel

giacomo-carugati commented 4 months ago

Rispondo con ordine prima a Filo e poi al Markero sugli aspetti che mi paiono più rilevanti.

Sul punto 2, quarta opzione, mi hai abbastanza convinto. Sul punto 4, terza opzione, ottima e dico OTTIMA osservazione: anche io l'ho segnato sugli appunti, ed effettivamente essendo tutto geometrico non c'è uno straccio di riferimento alle priors. Sarebbe carino verificare questa proprietà facendo un esercizio con LDA, prima con priors e poi senza, e fare anche la controparte FDA (o banalmente guardare le direzioni di discriminazione cosa fanno). Sul punto 5 mi sembra che in generale tu ti stia confondendo con gli scores (o il loro concetto associato lavorando direttamente sul modello). Sul punto 6, seconda opzione, sarebbe corretto quello che dici se anziché "variabile" ci fosse scritto tipo "data point". Sul punto 10 concordo.

giacomo-carugati commented 4 months ago

Boh ora provo a fare un Excel ma mi sembra che siamo parecchio in disaccordo. Ho chiesto a Giuseppe e lui ha fatto 5/10 per cui magari lo includo nell'Excel

Purtroppo non credo ne ricaveresti qualcosa; forse incrociando le risposte di tutti i presenti all'appello potremmo ricavare le soluzioni, ma neanche... Se vuoi prova, ma credo che possiamo basarci solo sul ragionamento.

giacomo-carugati commented 4 months ago

Dati questi proficui confronti, provo a formulare quali secondo me potrebbero essere delle possibili soluzioni.

  1. T - F (T) - F - T
  2. T - F/T - F - T (F)
  3. T - F - F
  4. F - T - T (F) - F
  5. F - T - F - F
  6. T (F) - F - F/T - F - F
  7. F (T) - F - T (F) - T
  8. F - T - F - T
  9. T - T - F - T
  10. F - T - F (T) - T - T

Laddove c'è tipo F/T vuol dire che metterei F ma sarei molto in dubbio; Laddove c'è tipo F (T) vuole dire che metterei quasi sicuramente F.

giacomo-carugati commented 4 months ago

Ho trovato una possibile soluzione che, incrociando i risultati tra me, Filo, Marc, Beps e Luigi, torna. Non è detto che sia l'unica combinazione di risposte possibile che faccia tornare i conti (ne dubito fortemente), ma purtroppo non c'è tempo per verificare. Ora usiamo come test case quello di una persona che ha mandato il suo test sul gruppo e preghiamo; editerò il commento con il risultato del test.

Ecco la possibile soluzione:

  1. T - T - F - T
  2. T - T - F - T
  3. T - F - F
  4. F - T - T - F
  5. F - T - F - F
  6. T - F - F - F - F
  7. T - F - F - F
  8. F - T - F - T
  9. T - T - F - T
  10. F - T - F - T - T

Secondo me è un po' tirata per i capelli; ho rigirato completamente le risposte alla domanda 7. Ora capiamo.

[EDIT: il test è risultato positivo, siamo pronti a lanciare il nostro modello sul mercato]

ScarpMarc commented 4 months ago

🙏🏻