GraveHag / CyberspaceSpider

CyberspaceSpider is a visualization-based web crawling project that maps the path a web crawler takes as it navigates through the internet. With CyberspaceSpider, you can gain insights into the structure of the web and the relationships between different sites. It is a simple and intuitive tool that provides a unique perspective on web crawling.
1 stars 0 forks source link

First architecture steps #1

Closed GraveHag closed 1 year ago

GraveHag commented 1 year ago

Define the scope and objectives of the project:

Determine the specific goals of the web walker, including what websites it will crawl, what data it will collect, and how it will be used.

GraveHag commented 1 year ago

Cílem je crawler, který pomocí http requestu dostane content stránky, kterou můžeme analyzovat. Zajímají nás primárně odkazy v těle stránky na které se crawler může poté přesunout a pokračovat v analýze.

Primární požadavky na crawlera:

Vzít v potaz maximální počet zanoření celkově - kolik domén lze navštívit - např. max 10domén.

Vzít v potaz maximální počet zanoření v dané doméně- např. max 5-10 podstránek abychom mohli najít další doménu na kterou se může walker přesunout

Vzít v potaz dobu vykonání - npř. max do 2-5min.

Sekundární požadavky na crawlera:

Kolekce header meta-tags ze kterých se dá udělat celkový přehlad o procházených doménách. Např. informace typu keywords, topics etc

Result:

Cílem bude poté vizualizovat sebraná data ve formě grafu.

GraveHag commented 1 year ago

Image