Have you ever wondered how to estimate the uncertainty of your regression parameters correctly?

cshaa commented 5 years ago

Yes I have.

cshaa commented 5 years ago

S Honzou Střelečkem a Danem Rodem jsme dokonce byli za Ledvinkou. A ani on nevěděl. Není to tak jednoduchý, dokonce ani s Monte Carlem… Tak jsem zvědavý, co vymyslíš. A rád pomůžu 🙂

detrin commented 5 years ago

Dan mi to spomínal. Som si plne vedomý toho, že to nie je jednoduché :) Podstatou je previesť problém LSQ na daných hodnotách s chybami na LSQ s premennými na týchto intervaloch. Samplovanie na týchto intervaloch pre jednotlivé premenné môže byť práve pomocou Monte Carlo, systematickejší prístup by vyžadoval váženie v každom kroku integrovania. S veľkým počtom určených parametrov z MC samplovania môžeme zanechať chybu jednotlivých LSQ (pokiaľ je táto relatívna chyba rozumne malá). Dostávame isté rozloženie pre parametre regresie, ktoré nemusí byť nutne normálne a je už na človeku aby správne interpretoval toto rozloženie. Rozhodne mi chýba nejaký ucelený na githube, ktorý by to dokázal :)

Hou, T., Nuyens, D., Roels, S., & Janssen, H. (2019). Quasi-Monte Carlo based uncertainty analysis: Sampling efficiency and error estimation in engineering applications. Reliability Engineering & System Safety, 191, 106549. doi:10.1016/j.ress.2019.106549

Problém MC je pomalá konvergencia, v tomto článku skúšali aj iné prístupy. Na začiatok MC postačí aby to nebol overkill.

Anderson, G. . (1976). Error propagation by the Monte Carlo method in geochemical calculations. Geochimica et Cosmochimica Acta, 40(12), 1533–1538. doi:10.1016/0016-7037(76)90092-2

V tomto článku použili rovnaký prístup, avšak článok je starý a príde mi to trochu nepresvedčivé..

Bevington, P. and Robinson, D. (2010). Data reduction and error analysis for the physical sciences. Boston: McGraw-Hill.

V tejto knihe je spomenutý prístup s MC v podkapitole 5.5, ale je to iba postup bez žiadnych numerických výsledkov, alebo overovaní stability.

http://www-personal.umd.umich.edu/~wiclarks/AstroLab/HOWTOs/NotebookStuff/MonteCarloHOWTO.html

Na tomto odkaze má Will Clarkson malé howto ako na takéto propagovanie chýb, nemá to avšak opreté o žiaden článok s jednou výnimkou

Even here there are important subtleties. The uncertainty in the best-fit parameter (i.e., the range of parameters consistent with the data) can depend strongly on the truth-value of the parameter - which is unknown. The formally correct procedure in these cases is to find the distribution of returned values under a range of truth-values, and use an ordering principle in the likelihood to find the range of recovered values when the truth-value is allowed to vary. The famous (to Physicists!) paper by Feldman & Cousins illustrates how to properly do this (link below).

A odkazuje sa na článok

Feldman, G. J., & Cousins, R. D. (1998). Unified approach to the classical statistical analysis of small signals. Physical Review D, 57(7), 3873–3889. doi:10.1103/physrevd.57.3873

Článok som ešte nepreštudoval do hĺbky, ale odpovedá to danému problému. Asi zatiaľ budem predpokladať, že dané dáta sú bez biasu.

Každá ruka navyše je vítaná :)

detrin / MCUP

Have you ever wondered how to estimate the uncertainty of your regression parameters correctly? #1