Webscraping - Githubissues

karlafej commented 4 years ago

Stahování dat z webu pro pražskou hodinu, iterace 1.

review-notebook-app[bot] commented 4 years ago

Check out this pull request on

You'll be able to see Jupyter notebook diff and discuss changes. Powered by ReviewNB.

PetraVidnerova commented 4 years ago

Díky moc za materiály. V rámci prokrastinace na to koukám a pár poznámek:

Příklady webscrapingu by zasloužily trošku okomentovat, aby na začátku bylo všem jasné, k čemu je ten webscraping dobrý
jak je tam ten vzorový html jako řetězec, nebylo by přehlednější mít to v souboru a soubor z notebooku načíst (mohly by si soubor otevřít v prohlížeči a vidět, že je to fakt stránka)
líbí se mi, že je tam dost úkolů pro ně
určitě by si měli před hodinou nainstalovat všechny potřebné knihovny, ať se s tím pak nezdržují
myslím, že snad většina z nich ví, co to je html, ale pokud tam bude někdo, pro koho je to nové, asi to na něj bude rychlé

janpipek commented 4 years ago

Hezké! Pěkné příklady, dobře zvolené podproblémy (možná jen ten camelot je navíc?)

Asi by se mi líbilo víc vysvětlujících odstavců - na hodině to asi bude fajn (když se k tomu dá vysvětlovat), ale pro domácí studium mi přijde, že třeba ze screenshotů Developer Tools bych nepochopil, co vlastně mám dělat.

frenzymadness commented 4 years ago

Souhlasím s Honzou a také bych camelot vynechal a přidal více vysvětlujících odstavců. Strukturu bych upravil tak, aby informace o HTML byly nahoře společně se základními informacemi o web scrapingu, pak ukázka read_html jakožto snadného řešení, které ale nefunguje vždy, a pak bych na to navázal s beautifulsoup, protože to je řešení, když read_html nefunguje nebo si potřebujeme cokoli udělat manuálně. Jednořádkové komentáře v buňkách bych možná nahradil za text mezi buňkami. Mimochodem, tento materiál je společný pro oba běhy. Zvážil bych možná zkrácení některých výstupů.

frenzymadness commented 4 years ago

Mohu nějak pomoci posunout toto kupředu?

karlafej commented 4 years ago

Lumír: karanténa tomu dost pomáhá sama o sobě... Najednou mám spoustu volného času :-D

frenzymadness commented 4 years ago

Nechci prudit, ale řešíme změnu programu a online výuku a tento materiál by se nám hodil. Strojové učení, které jsme teď měli dělat, je hodně interaktivní a připravené na spolupráci mezi účastnicemi a rozsáhlé diskuse, takže se v našem programu posune dál a volné místo by se dalo vyplnit třeba webscrapingem.

messa commented 4 years ago

Co si myslíte o BeautifulSoup vs. XPath? BeautifulSoup je čistě Python záležitost, XPath je standard, který lze použít jak v Pythonu, tak v Javascriptu, Seleniu, a dalších programovacích jazycích. XPath dotaz je navíc string, dá se tedy snadno např. načíst ze souboru. Chrome devtools umožňují získat XPath k jakémukoli elementu na stráce (i když ten je takový hodně low-level a nemusí být vhodný na scraping). Teď je asi pozdě něco měnit a co jsem zatím viděl, tak pythonisti z nějakého důvodu upřednostňují BeautifulSoup, takže asi nic :)

karlafej commented 4 years ago

XPath - nevím, neznám :-) Ale jestli si někdo chce vzít příští týden v Ostravě punkovou hodinu, tak se zlobit nebudu.

frenzymadness commented 4 years ago

XPath by nám to asi zbytečně komplikoval, protože je to sice velmi efektivní způsob jak vyhledávat v jakémkoli XML dokumentu, ale také je to samostatný jazyk a na to v jedné lekci není prostor. Navíc, trošku zdlouhavější popis, jak se postupným hledáním dostávat hlouběji v HTML struktuře, může vést i k lepšímu pochopení struktury samotné a procesu jejího procházení. A kdo to bude potřebovat dělat rychle a kompaktně, ten se o XPath dočte.

frenzymadness commented 4 years ago

Jinak, já podle těchto materiálů budu učit lekci příští týden ve středu ať už je do té doby začleníme nebo ne. Případně si je dle potřeby a aktuálního stavu ještě před lekcí upravím.

janpipek commented 4 years ago

Líbí se mi to.

frenzymadness commented 4 years ago

Je to naprosto super! Dobrá práce! Posledních pár minidrobností:

"Přistupuj ke stránce v rozumné míře,"
U úkolu bych dal tu URL adresu i jako odkaz, aby se mohli snadno na tu stránku podívat pouhým kliknutím a nemuseli to ručně kopírovat, i když to pak budou stejně muset udělat do kódu. Třeba takto: "Získejte tabulku aktuálních ekonomických údajů ze stránek Českého statistického úřadu, https://www.czso.cz/csu/czso/aktualniinformace."
Na konci bych odebral prázdnou buňku a doplnil nějaký závěr. Jakože teď už víte, jak získat data i bez API a CSV souborů, ale je třeba být opatrný, dodržovat etiku a zákony a hlavně brát scraping jako poslední možnost, protože sebemenší změna na stránce vám váš postup rozbije.

Je to bomba a už se moc těším na středu, až si tuhle lekci střihnu!

PyDataCZ / naucse.python.cz

Webscraping #52