KaterinaVokounova / Python2023_Ukoly

0 stars 0 forks source link

Úkol č. 3 #3

Closed KaterinaVokounova closed 1 year ago

KaterinaVokounova commented 1 year ago

A tady ještě úkol číslo 3...

Odkaz na řešení: https://github.com/KaterinaVokounova/Python2023_Ukoly/blob/65e6f65c2ec578e665248a647ff8e7fd48e0e81a/ukol_03.py

Odkaz na data: https://github.com/KaterinaVokounova/Python2023_Ukoly/blob/50c4559d5fb56e0edf7a14ab005aeb3b8cde8b91/Life-Expectancy-Data-Updated.csv

Díky

M-Kovar commented 1 year ago

Katko,

opět chválím za pečlivé zpracování a odpovědi na otázky v zadání :-). Píšu splněno, postupy, zpracování a závěry máš v principu správně, nicméně hned na začátku tam byl docela zásadní chyták s rozložením dat - viz první komentář:

Úkol máš splněný a nemusíš odevzdávat žádnou opravu, ale dobrovolně si můžeš vyzkoušet a nahrát na github verzi s upraveným rozložením vstupních dat.

KaterinaVokounova commented 1 year ago

Ahoj Martine,

moc, moc díky za všechny připomínky a tipy (i ke druhému úkolu). Co se týče transformace dat, tak mi ten graf přišel podezřelý. Ale Jirka říkal někdy na 7. lekci, že v úkolu transformace nebude. A i ty čísla v jeho nápovědě jsou čísla, která vychází bez tranformace dat, takže jsem tranformaci kvůli tomu neřešila. Zlogaritmovat data už je to nejjednodušší. Posílám jen sem: Life_Expectancy_2015['GDP_per_capita_log'] = numpy.log(Life_Expectancy_2015['GDP_per_capita']) Pak už bych jen opravila název sloupečku v modelech.

Díky ještě jednou a hezkou neděli.

Katka

ne 4. 6. 2023 v 16:43 odesílatel Martin Kovar @.***> napsal:

Katko,

opět chválím za pečlivé zpracování a odpovědi na otázky v zadání :-). Píšu splněno, postupy, zpracování a závěry máš v principu správně, nicméně hned na začátku tam byl docela zásadní chyták s rozložením dat - viz první komentář:

  • Jak vidno z hned prvního grafu, vztah mezi HDP a délkou života není lineární, takže regresní přímka data moc dobře neprokládá a tím pádem lineární regrese není schopná data uspokojivě reprezentovat. Statistiky ve zbytku příkladu kupodivu jakž takž vycházejí a dávají smysl, dokonce i normalita reziduí se potvrdila, nicméně určitě je žádoucí pokusit se data "linearizovat" a tím zajistit smysluplnost využití lineární regrese. Přesně tohle Jirka řeší ve svém videu, podle kterého můžeš data upravit, projet znovu zbytek příkladu a porovnat výsledky: Logaritmická transformace https://www.youtube.com/watch?v=1DON1XgYM4A. Transformace by měla zajistit vyšší reprezentativnost ("statistickou sílu") modelu.
  • Pozitivní vliv BMI: Tohle mi přišlo zajímavé - přeci jen čím vyšší BMI od nějaké hodnoty, tím vážnější obezita. Na druhou stranu, podvýživa způsobená a spojená s chudobou země a ještě s nekvalitním zdravotnictvím hádám zkrátí životy mnohem výrazněji než obezita ve vyspělých zemích, takže to vlastně dává smysl.

Úkol máš splněný a nemusíš odevzdávat žádnou opravu, ale dobrovolně si můžeš vyzkoušet a nahrát na github verzi s upraveným rozložením vstupních dat.

— Reply to this email directly, view it on GitHub https://github.com/KaterinaVokounova/Python2023_Ukoly/issues/3#issuecomment-1575595004, or unsubscribe https://github.com/notifications/unsubscribe-auth/A7AKWWKI5G3FXZUY7FXRFJLXJSNJ3ANCNFSM6AAAAAAYZK6OOU . You are receiving this because you authored the thread.Message ID: @.***>

M-Kovar commented 1 year ago

No, vlastně nevím nebo si nepamatuju, jaký měl s tím výběrem a případnou transformací dat Jirka záměr. Každopádně v praxi by bylo lepší udělat transformaci, ale jelikož v úkolu postup zůstává stejný, tak s tím nakonec není problém. Myslím, že na základě naší analýzy se asi nějaký tým vědců nevydá zachraňovat svět, takže dobrý :D. A jak píšeš, přidat ty zlogaritmované hodnoty už je maličkost :-).