ML second lecture (pre-PR)

PetraVidnerova commented 4 years ago

pre-PR ať je možno používat reviewNB

zatím obsahuje notebooky na scikitlearn api a klasifikační metriky, další budou přibývat

review-notebook-app[bot] commented 4 years ago

Check out this pull request on

You'll be able to see Jupyter notebook diff and discuss changes. Powered by ReviewNB.

frenzymadness commented 4 years ago

Prošel jsem si to a moc se mi to líbí. Jen bych se na některých místech více rozepsal a přidal nějaké příklady.

Počítá se do ML části i s nějakým tím klastrovacím algoritmem? Jaký je vlastně plán pro unsupervised learning?

Tady je plán, kdyby to někdo chtěl testovat v rámci naucse:

- title: Strojové učení 2
  slug: ml2
  date: 2020-03-12
  materials:
  - lesson: pydata/scikitlearn_api
  - lesson: pydata/classification_metrics
  - lesson: pydata/classification_resume

PetraVidnerova commented 4 years ago

Díky moc za všechny komenty, postupně začlením, ještě k tomu něco napíšu (je třeba zohlednit, že to ještě není celá hodina).

Počítá se do ML části i s nějakým tím klastrovacím algoritmem? Jaký je vlastně plán pro unsupervised learning?

V těhle dvou hodinách mělo být supervised learning, unsupervised je ta třetí, ale ta se nám nějak omezila na PCA. PCA je navíc spíš k feature selection, než vyloženě unsupervised learning, ale nepotřebujem škatulkovat. Klastrování vypadlo a asi by stálo za to, někam ještě aspoň vecpat zmínku, co to je a odkaz na nějaké materiály, kde si to můžou nastudovat.

Jak to vypadá s tou třetí hodinou vůbec netuším, to připravuje Petr Š. z Brna.

PetraVidnerova commented 4 years ago

Zatím opraveny Lumírovy připomínky k classification_metrics, druhej notebook a Honzovo bude asap. Konflikty s první lekcí pak nějak opravím.

Co takhle to doplnit o scatter plot s vizualizací různých tříd a kombinací vstupních parametrů? Tady by to mohlo být ještě reálné a umožnit si ten problém lépe představit.

Přidala jsem pairplot s krátkým komentářem.

Když používáme DecisionTree, přidal bych vysvětlení, jak funguje a třeba bych ten konkrétní natrénovaný model i vizualizoval.

Vzhledem k nabitému obsahu hodiny bych další noření se dovnitř nedělala. Cílem tohoto notebooku je přehled metrik, model slouží jen k tomu, aby bylo na čem metriky ilustrovat. Přidala jsem tedy zatím jen krátký komentář k DecisionTree a nechávám ke zvážení, zda to stačí nebo chceme víc.

Místo mezer bych použil zarovnání a doplnění mezerami: https://pyformat.info/#string_pad_align
Smazat TODO. A ano, je to matice záměn :)

Opraveno.
Klasifikátorům chybí random state, takže výsledky v tabulce nesedí s textem. Také tam není nikde vysvětleno, co to je SVM a Dummy a proč používáme dva klasifikátory.

Random seed dán na začátek. Stučný koment k SVM a Dummy.

Tady by to dle mého chtělo více vysvětlit a třeba dodat i příklad. Ten se psy na fotografii z wiki, odkud je nejspíše inspirována i kresba, by mohl posloužit dobře: https://en.wikipedia.org/wiki/Precision_and_recall

Přepsala jsem psy a kočky z wiki (+odkaz na wiki). Hezkej příklad.
Stejně jako by to možná chělo popis k obrázku. Něco jako: To co je v kolečku označil náš klasifikátor jako pozitivní případ, i když se v několika případech spletl.

Komentář k obrázku (co znamená zelená/červená, co uvnitř a vně kola).

Doplnil bych, že výsledek může být od 0 po 1 (1 je nejlepší) a že precision a recall jsou si v této rovnici rovny a mají tedy stejný vliv na výsledek.

OK

TODO:

odkaz na DT, odkaz na SVM, píšu positive se dvěma ss (grepnout nakonec)

PetraVidnerova commented 4 years ago

Tady bych to možná trošku více rozvedl. Proč je něco takového potřeba a jaké máme možnosti a proč potřebujeme samostatný scaler pro predikované hodnoty.

No, moc jsem to nerozvedla, trochu přeformulováno, ještě uvidíme, co s tím.

Pokud to dále nepoužijeme jako sloupec v Dataframe, spokojil bych se s něčím jako print(predikce_platu[:10]) místo převodu na Series jen pro použití metody head()

OK

Tady mi také přijde overkill dělat z několika čísel DataFrame jen aby se to hezky zobrazilo v tabulce. print nebo pprint by mohli posloužit a udělat ten kód podstatně jednodušší.

OK

Tady je u pickle.dump zapomenuté volání open, i když už máme soubor otevřený.

Dík.

TODO seznamy klasifikatoru a regressoru

PetraVidnerova commented 4 years ago

viz @janpipek :

jiná než úloha regrese (bez čárky) dík :(
Jedná se o ..., kterou ve třicátých letech sestavil statistik a biolog Ronald Fisher (https://en.wikipedia.org/wiki/Iris_flower_data_set) ?

přidáno

květů (amerických) kosT[sic]atců, taky bych možná psal kategorie biologicky správně s malým písmenem.
kališT[sic]ních (sepal) a okvětních (petal) - aby to nepůsobilo tak mysteriózně

opraveno

Nejjednodušší, co můžeme měřit, je procento správných o...

opraveno

Klasifikátor vykazuje / dosahuje na této množině... (toho "mít" už je tam nějak moc) Tykat?

opraveno (to bylo tykani množině)

Klasifikátor, který vše, co dostane, označuje za jablko, má tedy na této množině 90% úspěšnost. (+ 3 čárky)

njn, carky, fixed

confusion
...vzorků bylo označeno za negativNí
possitive -> positive (2x)
possitives -> positives

opraveno

Aspoň zmínit, proč se tomu tak říká? https://cs.wikipedia.org/wiki/ROC_k%C5%99ivka

přidano

...udává obsah plochy pod ROC křivkou
zamĚříme
možnostMi
tzv. one-hot(bez pomlčky) eNcoding
Např. sloupec

opraveno

Tady bych určitě zmínil aspoň jednou nebo dvěma větami, co to je a proč to je.

viz Lumirovy pripominky, velmi mirne rozsireno

vsTupní proměnné

opraveno

Nevím, jestli bych to nazval syntaxí. Spíš způsobem práce s modely v scikit-learn.

jasně, mírně přeformulováno

PetraVidnerova commented 4 years ago

Přidán notebook do homework_revisited - implementace regrese z domácího úkolu. Notebook je k dopsání. Vyplněná verze je homework_solution.ipynb

Obsah hodiny: 1 scikit-lern api 2 homework revisited 3 intro classification
4 classification metrics 5 classification resume

Aktuálně: 1 a 4 opraveno podle vašich připomínek 2 ready for review (se zavřenýma očima) 3 nutno dopsat (asi nejpozději zítra) 5 asi ještě něco připíšu, ale mělo by být ok

@frenzymadness @janpipek pokud budete mít čas kouknout hlavně na 2 (a zítra na 3)

janpipek commented 4 years ago

Ještě snad jen k formátování: Nemohly by označení úkolů být odstavcem hlubší úrovně než jejich nadřazené sekce?

PetraVidnerova commented 4 years ago

diky za všechny připomínky a vychytání všech těch překlepů, opraveno, grep na má oblíbená slova possitive a squarred už taky nic nenašel

takže se nějak zbavím těch konfliktů a bude to potřeba mergnout

PetraVidnerova commented 4 years ago

mam v tom bordel, dala jsem rebase na prahajaro2020, ale je tam spousta konfliktu v tej prvni hodine, radsi zalozim novou vetev, at nerozbiju prvni hodinu

dam pak novej PR

PetraVidnerova commented 4 years ago

zaviram, mergenuta vedlejsi vetev, vsechny pripominky zaevidovany

pozadavky na dalsi upravy (pouceni z krizoveho vyvoje + materialy pro samouky) muzeme hromadit v nejakem issue

PyDataCZ / naucse.python.cz

ML second lecture (pre-PR) #85