mvk-team42 / Veracitor

An application that studies the trust in a network of users, sources and articles
6 stars 2 forks source link

Förändra användningen av xpaths vid itemloading/scraping. #48

Closed JonathanMurray closed 11 years ago

JonathanMurray commented 11 years ago

I nuläget tas det fram det xpath som passar attributet och domänen, (mha webpageMeta.py), och sen försöker vi använda oss av det som står i HTML-taggen. Om det visar sig vara whitespace eller newline t.ex. sätts värdet till unknown.

Detta är ganska dumt. Det kan hända att det fanns en annan xpath som faktiskt pekade på ett vettigt värde. Men eftersom vi först väljer ut lämpligt xpath, och sedan kollar vad som finns, missar vi detta.

Gör istället så att vi kollar xpathsen successivt.

glindstedt commented 11 years ago

håller du på med det här? annars har jag börjat läsa på och börjar få koll på vad som ska göras