Closed PetraVidnerova closed 4 years ago
Check out this pull request on
You'll be able to see Jupyter notebook diff and discuss changes. Powered by ReviewNB.
Prošel jsem si to a moc se mi to líbí. Jen bych se na některých místech více rozepsal a přidal nějaké příklady.
Počítá se do ML části i s nějakým tím klastrovacím algoritmem? Jaký je vlastně plán pro unsupervised learning?
Tady je plán, kdyby to někdo chtěl testovat v rámci naucse:
- title: Strojové učení 2
slug: ml2
date: 2020-03-12
materials:
- lesson: pydata/scikitlearn_api
- lesson: pydata/classification_metrics
- lesson: pydata/classification_resume
Díky moc za všechny komenty, postupně začlením, ještě k tomu něco napíšu (je třeba zohlednit, že to ještě není celá hodina).
Počítá se do ML části i s nějakým tím klastrovacím algoritmem? Jaký je vlastně plán pro unsupervised learning?
V těhle dvou hodinách mělo být supervised learning, unsupervised je ta třetí, ale ta se nám nějak omezila na PCA. PCA je navíc spíš k feature selection, než vyloženě unsupervised learning, ale nepotřebujem škatulkovat. Klastrování vypadlo a asi by stálo za to, někam ještě aspoň vecpat zmínku, co to je a odkaz na nějaké materiály, kde si to můžou nastudovat.
Jak to vypadá s tou třetí hodinou vůbec netuším, to připravuje Petr Š. z Brna.
Zatím opraveny Lumírovy připomínky k classification_metrics, druhej notebook a Honzovo bude asap. Konflikty s první lekcí pak nějak opravím.
Přidala jsem pairplot s krátkým komentářem.
Vzhledem k nabitému obsahu hodiny bych další noření se dovnitř nedělala. Cílem tohoto notebooku je přehled metrik, model slouží jen k tomu, aby bylo na čem metriky ilustrovat. Přidala jsem tedy zatím jen krátký komentář k DecisionTree a nechávám ke zvážení, zda to stačí nebo chceme víc.
Místo mezer bych použil zarovnání a doplnění mezerami: https://pyformat.info/#string_pad_align
Smazat TODO. A ano, je to matice záměn :)
Opraveno.
Klasifikátorům chybí random state, takže výsledky v tabulce nesedí s textem. Také tam není nikde vysvětleno, co to je SVM a Dummy a proč používáme dva klasifikátory.
Random seed dán na začátek. Stučný koment k SVM a Dummy.
Tady by to dle mého chtělo více vysvětlit a třeba dodat i příklad. Ten se psy na fotografii z wiki, odkud je nejspíše inspirována i kresba, by mohl posloužit dobře: https://en.wikipedia.org/wiki/Precision_and_recall
Přepsala jsem psy a kočky z wiki (+odkaz na wiki). Hezkej příklad.
Stejně jako by to možná chělo popis k obrázku. Něco jako: To co je v kolečku označil náš klasifikátor jako pozitivní případ, i když se v několika případech spletl.
Komentář k obrázku (co znamená zelená/červená, co uvnitř a vně kola).
OK
TODO:
No, moc jsem to nerozvedla, trochu přeformulováno, ještě uvidíme, co s tím.
OK
OK
Dík.
TODO seznamy klasifikatoru a regressoru
viz @janpipek :
jiná než úloha regrese (bez čárky) dík :(
Jedná se o ..., kterou ve třicátých letech sestavil statistik a biolog Ronald Fisher (https://en.wikipedia.org/wiki/Iris_flower_data_set) ?
přidáno
opraveno
opraveno
opraveno (to bylo tykani množině)
Klasifikátor, který vše, co dostane, označuje za jablko, má tedy na této množině 90% úspěšnost. (+ 3 čárky)
njn, carky, fixed
opraveno
přidano
...udává obsah plochy pod ROC křivkou
zamĚříme
možnostMi
tzv. one-hot(bez pomlčky) eNcoding
Např. sloupec
opraveno
viz Lumirovy pripominky, velmi mirne rozsireno
opraveno
jasně, mírně přeformulováno
Přidán notebook do homework_revisited - implementace regrese z domácího úkolu. Notebook je k dopsání. Vyplněná verze je homework_solution.ipynb
Obsah hodiny:
1 scikit-lern api
2 homework revisited
3 intro classification
4 classification metrics
5 classification resume
Aktuálně: 1 a 4 opraveno podle vašich připomínek 2 ready for review (se zavřenýma očima) 3 nutno dopsat (asi nejpozději zítra) 5 asi ještě něco připíšu, ale mělo by být ok
@frenzymadness @janpipek pokud budete mít čas kouknout hlavně na 2 (a zítra na 3)
Ještě snad jen k formátování: Nemohly by označení úkolů být odstavcem hlubší úrovně než jejich nadřazené sekce?
diky za všechny připomínky a vychytání všech těch překlepů, opraveno, grep na má oblíbená slova possitive a squarred už taky nic nenašel
takže se nějak zbavím těch konfliktů a bude to potřeba mergnout
mam v tom bordel, dala jsem rebase na prahajaro2020, ale je tam spousta konfliktu v tej prvni hodine, radsi zalozim novou vetev, at nerozbiju prvni hodinu
dam pak novej PR
zaviram, mergenuta vedlejsi vetev, vsechny pripominky zaevidovany
pozadavky na dalsi upravy (pouceni z krizoveho vyvoje + materialy pro samouky) muzeme hromadit v nejakem issue
pre-PR ať je možno používat reviewNB
zatím obsahuje notebooky na scikitlearn api a klasifikační metriky, další budou přibývat