PyDataCZ / naucse.python.cz

Website with learning materials / Stránka s učebními materiály
https://naucse.python.cz
Other
14 stars 13 forks source link

Webscraping #52

Closed karlafej closed 4 years ago

karlafej commented 4 years ago

Stahování dat z webu pro pražskou hodinu, iterace 1.

review-notebook-app[bot] commented 4 years ago

Check out this pull request on  ReviewNB

You'll be able to see Jupyter notebook diff and discuss changes. Powered by ReviewNB.

PetraVidnerova commented 4 years ago

Díky moc za materiály. V rámci prokrastinace na to koukám a pár poznámek:

janpipek commented 4 years ago

Hezké! Pěkné příklady, dobře zvolené podproblémy (možná jen ten camelot je navíc?)

Asi by se mi líbilo víc vysvětlujících odstavců - na hodině to asi bude fajn (když se k tomu dá vysvětlovat), ale pro domácí studium mi přijde, že třeba ze screenshotů Developer Tools bych nepochopil, co vlastně mám dělat.

frenzymadness commented 4 years ago

Souhlasím s Honzou a také bych camelot vynechal a přidal více vysvětlujících odstavců. Strukturu bych upravil tak, aby informace o HTML byly nahoře společně se základními informacemi o web scrapingu, pak ukázka read_html jakožto snadného řešení, které ale nefunguje vždy, a pak bych na to navázal s beautifulsoup, protože to je řešení, když read_html nefunguje nebo si potřebujeme cokoli udělat manuálně. Jednořádkové komentáře v buňkách bych možná nahradil za text mezi buňkami. Mimochodem, tento materiál je společný pro oba běhy. Zvážil bych možná zkrácení některých výstupů.

frenzymadness commented 4 years ago

Mohu nějak pomoci posunout toto kupředu?

karlafej commented 4 years ago

Lumír: karanténa tomu dost pomáhá sama o sobě... Najednou mám spoustu volného času :-D

frenzymadness commented 4 years ago

Nechci prudit, ale řešíme změnu programu a online výuku a tento materiál by se nám hodil. Strojové učení, které jsme teď měli dělat, je hodně interaktivní a připravené na spolupráci mezi účastnicemi a rozsáhlé diskuse, takže se v našem programu posune dál a volné místo by se dalo vyplnit třeba webscrapingem.

messa commented 4 years ago

Co si myslíte o BeautifulSoup vs. XPath? BeautifulSoup je čistě Python záležitost, XPath je standard, který lze použít jak v Pythonu, tak v Javascriptu, Seleniu, a dalších programovacích jazycích. XPath dotaz je navíc string, dá se tedy snadno např. načíst ze souboru. Chrome devtools umožňují získat XPath k jakémukoli elementu na stráce (i když ten je takový hodně low-level a nemusí být vhodný na scraping). Teď je asi pozdě něco měnit a co jsem zatím viděl, tak pythonisti z nějakého důvodu upřednostňují BeautifulSoup, takže asi nic :)

karlafej commented 4 years ago

XPath - nevím, neznám :-) Ale jestli si někdo chce vzít příští týden v Ostravě punkovou hodinu, tak se zlobit nebudu.

frenzymadness commented 4 years ago

XPath by nám to asi zbytečně komplikoval, protože je to sice velmi efektivní způsob jak vyhledávat v jakémkoli XML dokumentu, ale také je to samostatný jazyk a na to v jedné lekci není prostor. Navíc, trošku zdlouhavější popis, jak se postupným hledáním dostávat hlouběji v HTML struktuře, může vést i k lepšímu pochopení struktury samotné a procesu jejího procházení. A kdo to bude potřebovat dělat rychle a kompaktně, ten se o XPath dočte.

frenzymadness commented 4 years ago

Jinak, já podle těchto materiálů budu učit lekci příští týden ve středu ať už je do té doby začleníme nebo ne. Případně si je dle potřeby a aktuálního stavu ještě před lekcí upravím.

janpipek commented 4 years ago

Líbí se mi to.

frenzymadness commented 4 years ago

Je to naprosto super! Dobrá práce! Posledních pár minidrobností:

Je to bomba a už se moc těším na středu, až si tuhle lekci střihnu!