Closed karlafej closed 4 years ago
Check out this pull request on
You'll be able to see Jupyter notebook diff and discuss changes. Powered by ReviewNB.
Díky moc za materiály. V rámci prokrastinace na to koukám a pár poznámek:
Příklady webscrapingu by zasloužily trošku okomentovat, aby na začátku bylo všem jasné, k čemu je ten webscraping dobrý
jak je tam ten vzorový html jako řetězec, nebylo by přehlednější mít to v souboru a soubor z notebooku načíst (mohly by si soubor otevřít v prohlížeči a vidět, že je to fakt stránka)
líbí se mi, že je tam dost úkolů pro ně
určitě by si měli před hodinou nainstalovat všechny potřebné knihovny, ať se s tím pak nezdržují
myslím, že snad většina z nich ví, co to je html, ale pokud tam bude někdo, pro koho je to nové, asi to na něj bude rychlé
Hezké! Pěkné příklady, dobře zvolené podproblémy (možná jen ten camelot je navíc?)
Asi by se mi líbilo víc vysvětlujících odstavců - na hodině to asi bude fajn (když se k tomu dá vysvětlovat), ale pro domácí studium mi přijde, že třeba ze screenshotů Developer Tools bych nepochopil, co vlastně mám dělat.
Souhlasím s Honzou a také bych camelot vynechal a přidal více vysvětlujících odstavců. Strukturu bych upravil tak, aby informace o HTML byly nahoře společně se základními informacemi o web scrapingu, pak ukázka read_html jakožto snadného řešení, které ale nefunguje vždy, a pak bych na to navázal s beautifulsoup, protože to je řešení, když read_html nefunguje nebo si potřebujeme cokoli udělat manuálně. Jednořádkové komentáře v buňkách bych možná nahradil za text mezi buňkami. Mimochodem, tento materiál je společný pro oba běhy. Zvážil bych možná zkrácení některých výstupů.
Mohu nějak pomoci posunout toto kupředu?
Lumír: karanténa tomu dost pomáhá sama o sobě... Najednou mám spoustu volného času :-D
Nechci prudit, ale řešíme změnu programu a online výuku a tento materiál by se nám hodil. Strojové učení, které jsme teď měli dělat, je hodně interaktivní a připravené na spolupráci mezi účastnicemi a rozsáhlé diskuse, takže se v našem programu posune dál a volné místo by se dalo vyplnit třeba webscrapingem.
Co si myslíte o BeautifulSoup vs. XPath? BeautifulSoup je čistě Python záležitost, XPath je standard, který lze použít jak v Pythonu, tak v Javascriptu, Seleniu, a dalších programovacích jazycích. XPath dotaz je navíc string, dá se tedy snadno např. načíst ze souboru. Chrome devtools umožňují získat XPath k jakémukoli elementu na stráce (i když ten je takový hodně low-level a nemusí být vhodný na scraping). Teď je asi pozdě něco měnit a co jsem zatím viděl, tak pythonisti z nějakého důvodu upřednostňují BeautifulSoup, takže asi nic :)
XPath - nevím, neznám :-) Ale jestli si někdo chce vzít příští týden v Ostravě punkovou hodinu, tak se zlobit nebudu.
XPath by nám to asi zbytečně komplikoval, protože je to sice velmi efektivní způsob jak vyhledávat v jakémkoli XML dokumentu, ale také je to samostatný jazyk a na to v jedné lekci není prostor. Navíc, trošku zdlouhavější popis, jak se postupným hledáním dostávat hlouběji v HTML struktuře, může vést i k lepšímu pochopení struktury samotné a procesu jejího procházení. A kdo to bude potřebovat dělat rychle a kompaktně, ten se o XPath dočte.
Jinak, já podle těchto materiálů budu učit lekci příští týden ve středu ať už je do té doby začleníme nebo ne. Případně si je dle potřeby a aktuálního stavu ještě před lekcí upravím.
Líbí se mi to.
Je to naprosto super! Dobrá práce! Posledních pár minidrobností:
https://www.czso.cz/csu/czso/aktualniinformace
."Je to bomba a už se moc těším na středu, až si tuhle lekci střihnu!
Stahování dat z webu pro pražskou hodinu, iterace 1.