XeniaRieger / Modern-Search-Engines

0 stars 0 forks source link

Questions for tutorial 1 #9

Closed XeniaRieger closed 4 months ago

XeniaRieger commented 4 months ago
  1. Can we use Beautiful Soup to extract links?/ Can we use language detection package? ja, kein Problem. Teilprobleme zu lösen mit packages ist immer in Ordnung.

  2. How big is our initial frontier allowed to be?

    • komplett frei. nicht zu viel, da mehr Arbeit für uns. Mehr divers -> Uni, Tripadvisor, Freizeit,...
    • etwa 10 Links reichen
    • englisch sprachige Seite reichen im Frontier Muss nicht auf vollständigkeit gecrawlet werden, eher Diversität! Am Ende etwa 50.000 Seiten (~2-3 Gb an Daten)
  3. What are the rules for inital frontier, i.e. google results? erlaubt...

  4. Welche Infors ins Frontier

    • schon besucht/wann
    • Priorität (Tübingen schon 1x nicht erwähnt... nicht "zu weit" gehen)
    • index
    • url
  5. Generell Ideen für Priority:

    • Tübingen enthalten, oder nicht?
    • Englisch oder nicht?
    • Diversität der Website!!! Nicht nur Wikipedia crawlen, kommt man sonst nicht mehr raus. Stattdessen ein Maß für Diversität bei den gecrawlten Websites entwickeln
  6. Nur Relevante URLS ins Frontier?

    • Frontier: Wollen wir noch besuchen
    • Datenbank: relevante und besuchte Artikel geindext
    • Daten in verschiedene Tabellen aufteilen um schneller zu sein L- ieber weniger aber diverser crawlen, da dann auch unsere Querrys schneller werden
  7. Vorsicht beim Crawlen: nicht das ganze Internet auch noch auf Handyversion crawlen