uvacw / inca

24 stars 6 forks source link

German newspaper: Neues Deutschland #68

Open bobvdvelde opened 7 years ago

bobvdvelde commented 7 years ago

Neues Duetschland can be found at https://www.neues-deutschland.de/

arno12 commented 7 years ago

Significant amount of paid articles to be treated. Currently being returned as e.g.:

{'summary': 'Uwe Kalbe über digitale Unsicherheitsaussichten', 'pub_date': '2016-12-27T19:47:20+01:00', 'url': 'https://www.neues-deutschland.de/artikel/1036717.ausstellung-abgesagt.html', 'source': '', 'title': 'Ausstellung abgesagt 🔒', 'text': 'Die Ausstellung von Schlüsselwerken einer spektakulären iranischen Kunstsammlung in Berlin ist abgesagt worden. Der Iran habe bislang immer noch keine Ausfuhrgenehmigung für die Kunstwerke erteilt, erklärte der Präsident der Stiftung Preußischer Kulturbesitz (SPK), Hermann Parzinger, am Dienstag. Die Stiftung habe deshalb den Kooperationsvertrag mit dem Teh...', 'category': 'Kultur'}

Would it be better to return them differently? Or to add a "paid" tag?

bobvdvelde commented 7 years ago

I think you suggestion is great, add a {'tags': ['paid'] } to the dict. Otherwise, users will have to infer the lack of content themselves

Jaerli commented 7 years ago

The scraper is written except for the scraping of the teaser: It is not on the same page as the article.

Jaerli commented 7 years ago

The first part of the teaser is always the first fat printed sentence of the article. The rest of the teaser is a summary that is not findable on the actual article. The scraper now just takes that first sentence.