Closed GraveHag closed 1 year ago
Cílem je crawler, který pomocí http requestu dostane content stránky, kterou můžeme analyzovat. Zajímají nás primárně odkazy v těle stránky na které se crawler může poté přesunout a pokračovat v analýze.
Vzít v potaz maximální počet zanoření celkově - kolik domén lze navštívit - např. max 10domén.
Vzít v potaz maximální počet zanoření v dané doméně- např. max 5-10 podstránek abychom mohli najít další doménu na kterou se může walker přesunout
Vzít v potaz dobu vykonání - npř. max do 2-5min.
Kolekce header meta-tags ze kterých se dá udělat celkový přehlad o procházených doménách. Např. informace typu keywords, topics etc
Cílem bude poté vizualizovat sebraná data ve formě grafu.
Define the scope and objectives of the project:
Determine the specific goals of the web walker, including what websites it will crawl, what data it will collect, and how it will be used.