Can we use Beautiful Soup to extract links?/ Can we use language detection package?
ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung.
How big is our initial frontier allowed to be?
komplett frei. nicht zu viel, da mehr Arbeit für uns. Mehr divers -> Uni, Tripadvisor, Freizeit,...
etwa 10 Links reichen
englisch sprachige Seite reichen im Frontier
Muss nicht auf vollständigkeit gecrawlet werden, eher Diversität! Am Ende etwa 50.000 Seiten (~2-3 Gb an Daten)
What are the rules for inital frontier, i.e. google results?
erlaubt...
Welche Infors ins Frontier
schon besucht/wann
Priorität (Tübingen schon 1x nicht erwähnt... nicht "zu weit" gehen)
index
url
Generell Ideen für Priority:
Tübingen enthalten, oder nicht?
Englisch oder nicht?
Diversität der Website!!! Nicht nur Wikipedia crawlen, kommt man sonst nicht mehr raus. Stattdessen ein Maß für Diversität bei den gecrawlten Websites entwickeln
Nur Relevante URLS ins Frontier?
Frontier: Wollen wir noch besuchen
Datenbank: relevante und besuchte Artikel geindext
Daten in verschiedene Tabellen aufteilen um schneller zu sein
L- ieber weniger aber diverser crawlen, da dann auch unsere Querrys schneller werden
Vorsicht beim Crawlen:
nicht das ganze Internet auch noch auf Handyversion crawlen
Can we use Beautiful Soup to extract links?/ Can we use language detection package? ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung.
How big is our initial frontier allowed to be?
What are the rules for inital frontier, i.e. google results? erlaubt...
Welche Infors ins Frontier
Generell Ideen für Priority:
Nur Relevante URLS ins Frontier?
Vorsicht beim Crawlen: nicht das ganze Internet auch noch auf Handyversion crawlen