Questions for tutorial 1

Can we use Beautiful Soup to extract links?/ Can we use language detection package? ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung.
How big is our initial frontier allowed to be?
- komplett frei. nicht zu viel, da mehr Arbeit für uns. Mehr divers -> Uni, Tripadvisor, Freizeit,...
- etwa 10 Links reichen
- englisch sprachige Seite reichen im Frontier Muss nicht auf vollständigkeit gecrawlet werden, eher Diversität! Am Ende etwa 50.000 Seiten (~2-3 Gb an Daten)
What are the rules for inital frontier, i.e. google results? erlaubt...
Welche Infors ins Frontier
- schon besucht/wann
- Priorität (Tübingen schon 1x nicht erwähnt... nicht "zu weit" gehen)
- index
- url
Generell Ideen für Priority:
- Tübingen enthalten, oder nicht?
- Englisch oder nicht?
- Diversität der Website!!! Nicht nur Wikipedia crawlen, kommt man sonst nicht mehr raus. Stattdessen ein Maß für Diversität bei den gecrawlten Websites entwickeln
Nur Relevante URLS ins Frontier?
- Frontier: Wollen wir noch besuchen
- Datenbank: relevante und besuchte Artikel geindext
- Daten in verschiedene Tabellen aufteilen um schneller zu sein L- ieber weniger aber diverser crawlen, da dann auch unsere Querrys schneller werden
Vorsicht beim Crawlen: nicht das ganze Internet auch noch auf Handyversion crawlen

XeniaRieger / Modern-Search-Engines