Machine learning intro - Githubissues

PetraVidnerova commented 4 years ago

První část první lekce na ML. Lekce by měla sestávat ze tří notebooků, tohle je ten úvodní, kde jsou jen nějaké základní pojmy a ukázka klasifikace a predikce na triviálních datech. Ukázky jsou jen na odklikání, další dva notebooky už budou "hands on", vezmou se reálná data, co doporučil Andrej a budou kód dopisovat (nějaká kostra tam asi bude).

Nejsem si jistá, zda tam můžu nechat ty obrázky, jsou ukradené z článku viz odkaz dole, ten druhý asi nahradím něčím jiným (je v něm angličtina).

review-notebook-app[bot] commented 4 years ago

Check out this pull request on

You'll be able to see Jupyter notebook diff and discuss changes. Powered by ReviewNB.

frenzymadness commented 4 years ago

Klasifikace je podle mě super, jednoduchá a snadno pochopitelná, což je u úvod žádoucí. Regrese už se mi z textu chápala hůře. Přijde mi, že moc nevysvětluje, proč a jak jsme na začátku měnili vstupní data, něco málo o tom, že lineární regrese tam vlastně jen hledá místo, kam nejlépe nacpat rovnou čáru a třeba i něco málo o tom, jak vlastně můžeme jednoduše vypočítat, jak (ne)přesná ta regrese v našem případě je.

Laickým pohledem si myslím, že by některé z těchto otázek bylo dobré v textu vysvětlit, nebo alespoň přislíbit jejich vysvětlení v dalších hodinách.

PetraVidnerova commented 4 years ago

Díky, zkusím tu regresi trochu víc okomentovat, uvést. To o tom, jak vypočítat, jestli je regrese přesná-nepřesná, to bych nechala na později, tady to lze zmínit, že se to dozvíme. Ono to samé platí i pro klasifikaci. Cílem tohohle notebooku měl být hlavně ten ůvod a dozvědět se, co je to klasifikace a co regrese. Takže jsem chtěla jen stručné příklady, což nakonec až tak stručné nejsou. Měla bych dodělat i další notebook, aby to bylo i víc v kontextu, ale i samostatně by to mělo dávat smysl. Teď jsem mimo civilizaci a bez wfi :(, ale v sobotu na to budu snad mít čas.

AndrejSvitek commented 4 years ago

Ahojte, súhlas so všetkými bodmi, ktoré napísal @frenzymadness. Ak reshapneme ndarray, tak nech je tam len poznámka, prečo sme to vlastne robili. Aby to niekoho nemiatlo, či sa to naozaj robí vždy alebo len v tomto prípade.

Ešte mi napadlo, nebolo by možné, aby si účastnice pred hodinou urobili vizualizáciu toho Iris datasetu (napr. ako domácu úlohu)? Na scatteroch je dobre vidieť, ako sú tie jednotlivé triedy rozdelené. Účastnice by na hodine mohli dostať niekoľko pozorovaní a mali by určiť, o aký typ sa jedná. Ide mi o to demonštrovať, v čom spočíva prínos Machine Learningu. My to dokážeme určiť ručne, ale so 7 riadkami kódu sa to ten počítač naučí sám a podstatne rýchlejšie a ešte aj presnejšie. Len nápad 😉

coobas commented 4 years ago

Díky, je to pěkné. Přidal jsem pár nápadů a obecně souhlas s tím co bylo řečeno :)

janpipek commented 4 years ago

Líbí se mi obsah i použité příklady.

Mám dva globální komentáře:

Přidal bych pár zmínek o tom, co je scikit-learn, proč integrované datové sady jsou v tak uživatelsky unfriendly formátu, jako jsou (dosud jsme probírali pandas, kde byly tabulky většinou přehledné), že vstup i výstup v sklearn musí být numerická pole a že spolupráce s pandas je (resp. byla do 0.20) dost krkolomná atd.
Celkově mi přijde (a je to dost subjektivní, těžko se posuzuje, jak bych něčemu rozuměl, kdybych tomu nerozuměl, nějaké hodně laické oko by tu pomohlo), že je ten text psaný relativně dost technicky a stručně. Pokud se to na hodině dobře podá, je to fajn. Ale pro výukový materiál by to možná chtělo víc rozepsat, proč některé věci děláme, co znamenají apod.

Co se týče těch dalších notebooků ("...Ukázky jsou jen na odklikání, další dva notebooky už budou hands on..."), jsem zvědav, jak to bude fungovat (na hodině i jako materiál pro samostudium). Pražská EDA je psaná dost způsobem "odklikej a udělej si doplňující úkoly" (což je asi dobré hlavně pro samostudium), tohle může být zase něco trochu jiného (a dobré hlavně pro kurz s koučem).

frenzymadness commented 4 years ago

Kdyby bylo třeba s něcím pomoci, budu teď mít trošku volnější ruce po dokončené EDA části.

PetraVidnerova commented 4 years ago

Kdyby bylo třeba s něcím pomoci, budu teď mít trošku volnější ruce po dokončené EDA části.

Super, dík, zkusím se ozvat s něčím konkrétním. V úterý jsme nad tím asi čtyři hodiny strávili s Romanem, nicméně výsledkem je přestava, jak by ty dvě hodiny měly probíhat, ne materiály. To je teď třeba dořešit.

frenzymadness commented 4 years ago

Včetně dneška máme v Ostravě náplň ještě na tři lekce EDA a pak by podle plánu měly následovat dvě hodiny ML. Jak to prosím vypadá s přípravou materiálů?

PetraVidnerova commented 4 years ago

Přiznávám, že hřešíme na tom, že máme po EDA ještě databáze a opakovací hodinu a pak až ML. Nicméně v Praze bude tedy první hodina ML 12. 3., je to tedy stejně jako u vás?

Zrovna včera jsme měli s Romanem D. schůzku nad materiály (on bojkotuje všechny sociální sítě, githuby, apod. čímž to trochu komplikuje), krom jiného jsme se dohodli, že

už to tento týden předhodíme ke komentářům ostatním koučům,
vzhledem k tomu, že obě hodiny jsou hodně interaktivní a nejsou materiály moc samostudijní, dopíšeme ještě nějaké komentáře pro kouče, cosi jako manuál, jak vést hodinu

Jde nám hlavně o to, že to není moc o kódování, to je vždycky jen o zavolání fit a predict, ale chceme, aby o tom holky přemýšlely - t.j. během hodiny by mělo být hodně prostoru pro jejich nápady a diskuzi nad těmito nápady. Asi si to teda nechám ve čtvrtek na hodině Romanem schválit a hodím to pak večer na github, ať to bude v jakémkoli stavu, ať máte představu a můžete se k tomu vyjádřit.

Omlouvám se, že to tak trvá, ale narvat ML do dvou lekcí (nepočítám tu třetí, která je pouze o PCA) nám přišlo docela šílený a snažili jsme se s tím nějak poprat, dost jsme to překopali.

PetraVidnerova commented 4 years ago

A v téhle fázi už by jsme měli být schopni vygenerovat nějaký konkrétní úkol na pomoc, jestli ještě ochota s tím pomoci trvá.

frenzymadness commented 4 years ago

Přiznávám, že hřešíme na tom, že máme po EDA ještě databáze a opakovací hodinu a pak až ML. Nicméně v Praze bude tedy první hodina ML 12. 3., je to tedy stejně jako u vás?

I když je u nás v plánu mít ML hned po EDA, bude to nejspíše ve stejném týdnu.

* vzhledem k tomu, že obě hodiny jsou hodně interaktivní a nejsou materiály moc samostudijní,
  dopíšeme ještě nějaké komentáře pro kouče, cosi jako manuál, jak vést hodinu

Nemám problém s interaktivní hodinou, ale rád bych, aby možnost samostudia zůstala zachována. Přeci jen pak i lidi na lekci mají k dispozici vodítko a informace, které na lekci nezazněly nebo zazněly jinými slovy.

A v téhle fázi už by jsme měli být schopni vygenerovat nějaký konkrétní úkol na pomoc, jestli ještě ochota s tím pomoci trvá.

Pomůžu jak jen budu moci.

PetraVidnerova commented 4 years ago

založila jsem větev ml_petra_roman, hlavně to v tomhle stavu nikam nemergujte

PetraVidnerova commented 4 years ago

zavírám, už máme dva další PR na ML :)

PyDataCZ / naucse.python.cz

Machine learning intro #15