edisona / amcat

Automatically exported from code.google.com/p/amcat
1 stars 0 forks source link

scrapers voor krantensites uni Wenen #502

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Zie hieronder voor de lijst met websites. Van elk artikel de volledige tekst, 
url, auteur, datum/tijd, mediumnaam en zo mogelijk iets de sectie 
(Innenpolitik, Ausland, Lifestyle oid). 

Comments, afbeeldingen/onderschriften, advertenties en links naar andere 
artikelen dus please niet meescrapen (kan dat?).

Project nr. 50 (AUTNES Media Side), elke scraper in een aparte articleset.

De sites (dit zijn er veel, kijk eerst maar even of dit allemaal mogelijk is in 
een paar weken en welke sites lastig zijn):

orf.at
diepresse.com
derstandard.at 
krone.at
kurier.at
noen.at
kleinezeitung.at
tt.com
heute.at
news.at
gmx.at
news.google.at
oe24.at
nachrichten.at
salzburg.com
vienna.at
vol.at

Super bedankt alvast!!

Original issue reported on code.google.com by carinaja...@nieuwsmonitor.net on 24 Jun 2013 at 1:07

Attachments:

GoogleCodeExporter commented 9 years ago
Zal ik ook de sportsecties meenemen?

Original comment by Toon.Alfrink@gmail.com on 28 Jun 2013 at 9:49

GoogleCodeExporter commented 9 years ago
Nee, die hoeven niet, het gaat vooral om politiek nieuws. Handig trouwens
dat je die sportsecties eruit kunt laten, scheelt weer werk voor mij
achteraf:)

Original comment by carinaja...@nieuwsmonitor.net on 28 Jun 2013 at 12:36

GoogleCodeExporter commented 9 years ago
Dat ligt natuurlijk vooral aan de indeling van de website, soms linkt deze bij 
sportartikelen naar een externe website, dan is het een kwestie van niets extra 
doen, soms moet ik even er een filtertje op zetten. kleine moeite!

Original comment by Toon.Alfrink@gmail.com on 28 Jun 2013 at 2:21

GoogleCodeExporter commented 9 years ago
orf.at is klaar en draait.

Original comment by Toon.Alfrink@gmail.com on 3 Jul 2013 at 5:22

GoogleCodeExporter commented 9 years ago
orf. at is er volgens mij na 3 artikelen mee opgehouden, of heb je m uitgezet? 
En ik zag diepresse.com :) met nog 0 artikelen, klopt dat?

Original comment by carinaja...@nieuwsmonitor.net on 5 Jul 2013 at 9:20

GoogleCodeExporter commented 9 years ago
ja, gaat lekker he? ;) Ik kijk wel even waarom het niet werkt.

Original comment by Toon.Alfrink@gmail.com on 5 Jul 2013 at 9:51

GoogleCodeExporter commented 9 years ago
thanks!

Original comment by carinaja...@nieuwsmonitor.net on 5 Jul 2013 at 9:58

GoogleCodeExporter commented 9 years ago
Gefixt! 

De vienna folder had geen __init__.py waardoor de imports niet werkten.

Original comment by Toon.Alfrink@gmail.com on 5 Jul 2013 at 10:53

GoogleCodeExporter commented 9 years ago
De orf.at scraper scraped nog steeds maar ~5 artikelen, maar dit ligt niet aan 
de scraper

De website heeft namelijk geen archief en alleen maar actueel nieuws, op het 
moment dat de scraper aan de beurt is, ik denk tegen het eind van de ochtend, 
is het meeste alweer verdwenen.

Ik zal deze scraper apart laten draaien zodat ie op tijd is.

Original comment by Toon.Alfrink@gmail.com on 6 Jul 2013 at 7:21

GoogleCodeExporter commented 9 years ago
Ok goeie, thanks! Ik hou komende dagen de scraper en de website ook wel in
de gaten, misschien staat elk artikel voor een vaste tijd op de website of
verdwijnt alles op een vast tijdstip. Als ik dat uit kan vinden geef ik het
door.

Original comment by carinaja...@nieuwsmonitor.net on 7 Jul 2013 at 12:28

GoogleCodeExporter commented 9 years ago
derstandard scraper is klaar, heerlijk makkelijke website, kostte maar 10 
regels en 20 minuten.

Original comment by Toon.Alfrink@gmail.com on 7 Jul 2013 at 7:41

GoogleCodeExporter commented 9 years ago
orf.at heeft om de paar uur nieuwe artikelen.. doe eerst maar de
makkelijker sites en laat maar weten als een site erg moeilijk te scrapen
is of toestanden geeft zoals de orf site. Ik kan dan altijd nog met de
mensen hier overleggen of ze die site wel echt nodig hebben. Thanks!

Original comment by carinaja...@nieuwsmonitor.net on 9 Jul 2013 at 6:47

GoogleCodeExporter commented 9 years ago
Voor gisteren en vandaag zie ik helemaal geen artikelen meer bij de drie
scrapers (bij derstandard.at helemaal niets, diepresse.com eerst wel maar
laatste dagen niet meer).. met orf.at kun je wel even wachten, maar
standard en presse zouden het wel moeten doen.

Op 9 juli 2013 08:47 schreef Carina Jacobi
<carinajacobi@nieuwsmonitor.net>het volgende:

Original comment by carinaja...@nieuwsmonitor.net on 9 Jul 2013 at 1:11

GoogleCodeExporter commented 9 years ago
Ja, mijn excuses, dat is een globaal probleem dat ik vandaag verwacht op te 
lossen.

Wat orf.at betreft: het is geen probleem om die elk uur te laten draaien, net 
als de teletekst scraper.
Dan gooien we naderhand de duplicaten er uit.

Original comment by Toon.Alfrink@gmail.com on 9 Jul 2013 at 1:47

GoogleCodeExporter commented 9 years ago
Ok dat zou een mooie oplossing zijn voor orf.at. Als ik zijn articleset op
enable indexing zet en de index elke dag refresh, is dat dan een goeie
manier om de duplicates eruit te gooien?

Original comment by carinaja...@nieuwsmonitor.net on 9 Jul 2013 at 2:01

GoogleCodeExporter commented 9 years ago
Beter nog laat ik 'm dat ook automatisch doen, da's weer een zorg minder voor 
jou.

Original comment by Toon.Alfrink@gmail.com on 9 Jul 2013 at 2:09

GoogleCodeExporter commented 9 years ago
cool, thanks!

Original comment by carinaja...@nieuwsmonitor.net on 9 Jul 2013 at 2:14

GoogleCodeExporter commented 9 years ago
krone.at scraper klaar

Is het tempo hoog genoeg of moet het sneller af?

Original comment by Toon.Alfrink@gmail.com on 14 Jul 2013 at 11:25

GoogleCodeExporter commented 9 years ago
Super, thanks! Het is de bedoeling dat vanaf 1 augustus alle scrapers
draaien, gaat dat lukken?

Original comment by carinaja...@nieuwsmonitor.net on 15 Jul 2013 at 8:15

GoogleCodeExporter commented 9 years ago
Prima, dan besteed ik er wat meer tijd aan.
Kurier.at scraper is klaar, lelijke website, totaal geen structuur. Ik laat 'm 
ook uurlijks draaien.

Original comment by Toon.Alfrink@gmail.com on 15 Jul 2013 at 10:33

GoogleCodeExporter commented 9 years ago
noen.at scraper ook klaar.

Original comment by Toon.Alfrink@gmail.com on 16 Jul 2013 at 11:28

GoogleCodeExporter commented 9 years ago
evenals kleinezeitung.at

Carina, wil je voor de nieuwe scrapers even checken of alles naar wens is?

Original comment by Toon.Alfrink@gmail.com on 17 Jul 2013 at 5:43

GoogleCodeExporter commented 9 years ago
tt.com scraper klaar

Original comment by Toon.Alfrink@gmail.com on 17 Jul 2013 at 6:23

GoogleCodeExporter commented 9 years ago
Hey Toon,

Super, thanks dat het zo snel gaat ineens! Ik ga tt en kleine zeitung in de
gaten houden zodra ze wat gescraped hebben voor vandaag. De rest ziet er
goed uit. De ene krant heeft wel veel meer artikelen per dag dan de andere,
maar volgens mij ligt dat aan de krant (dat laat ik nog uitzoeken). E�n
klein dingetje: noen.at scraper ziet volgens mij de hele ondertitel als
titel, bv. hier: http://amcat.vu.nl/navigator/project/50/article/41340764.
Kan de ondertitel ("Ob spritzparende Flieger... privater Firmen koppeln" in
dat artikel) ook in een iets kleiner lettertype?

Verder hoorde ik van Joep dat een scraper van de Nieuwsmonitor problemen
heeft (Joep had een issue aangemaakt) en Joep heeft haast, dus geef daar
maar even voorrang aan als je wilt.

Bedankt weer!

Groeten,
Carina

Original comment by carinaja...@nieuwsmonitor.net on 17 Jul 2013 at 6:47

GoogleCodeExporter commented 9 years ago
Goed punt van de ondertitel: Amcat ziet wel degelijk het verschil (als je goed 
kijkt zie je een lijntje tussen de titel en de ondertitel) maar geeft het wel 
heel lelijk weer. Die ondertitel mag wel wat kleiner.

Maar da's slechts weergave: als je het artikel exporteert dan zijn headline en 
byline gescheiden.

Original comment by Toon.Alfrink@gmail.com on 17 Jul 2013 at 11:13

GoogleCodeExporter commented 9 years ago
Ok dat is fijn, dat titel en ondertitel goed van elkaar gescheiden worden
vind ik het belangrijkste. De nieuwssite-artikelen zijn alleen voor de
automatische analyse dus dan maakt de opmaak niet zo heel veel uit.

Op 17 juli 2013 13:13 schreef <amcat@googlecode.com> het volgende:

Original comment by carinaja...@nieuwsmonitor.net on 17 Jul 2013 at 11:28

GoogleCodeExporter commented 9 years ago
Hey Toon,

Nog even over de nieuw scrapers:

1. De TT scraper doet het volgens mij nog niet:
http://amcat.vu.nl/navigator/project/50/articleset/3437.

2 De kleine zeitung heeft de bestandsnamen (?) van afbeeldingen in de tekst
staan, bv. "![Salzburgs UV-Lampen](
http://static2.kleinezeitung.at/system/galleries_520x335/upload/7/0/3/3358147/ra
senlampen1707kk726.jpg)"
in dit artikel: http://amcat.vu.nl/navigator/project/50/article/41394870.
Is er een manier om die uit de tekst te laten? Als dit te fixen is, graag,
maar please pas op het eind als alle scrapers af zijn.

De rest werkt prima voor zover ik zie, thanks!

Groeten,
Carina

Op 17 juli 2013 13:28 schreef Carina Jacobi
<carinajacobi@nieuwsmonitor.net>het volgende:

Original comment by carinaja...@nieuwsmonitor.net on 18 Jul 2013 at 7:04

GoogleCodeExporter commented 9 years ago
Zo, heute scraper klaar. Nog 8/17 te gaan.

Original comment by Toon.Alfrink@gmail.com on 18 Jul 2013 at 7:05

GoogleCodeExporter commented 9 years ago
In de tt scraper zat inderdaad een foutje.

Da's html2text, vaak handig om niet alleen de tekst maar ook links en 
dergelijke te krijgen. Joep had ook nog gevraagd naar een scriptje dat dat om 
kon draaien, dus dat zal ik binnenkort even maken.

Original comment by Toon.Alfrink@gmail.com on 18 Jul 2013 at 7:15

GoogleCodeExporter commented 9 years ago
news.at scraper ook klaar.

Original comment by Toon.Alfrink@gmail.com on 18 Jul 2013 at 12:03

GoogleCodeExporter commented 9 years ago
Over Google news: Ik kan vaak alleen de URL, de headline, de bron en met wat 
moeite de datum scrapen. Het probleem is dat google naar tientallen 
verschillende websites linkt met verschillende opmaak.

Ik kan wel een poging doen de tekst te scrapen aan de hand van de thumbnail: 
daaruit kan ik afleiden in welke HTML tag in ieder geval een deel van de tekst 
staat. Het probleem hiervan is dat misschien soms alleen de intro wordt 
meegenomen, soms juist te veel (scripts, reclame etc).

Original comment by Toon.Alfrink@gmail.com on 20 Jul 2013 at 3:57

GoogleCodeExporter commented 9 years ago
Ok, laat Google News dan voorlopig maar even zitten, ik zal bij de anderen
navragen of zij die site echt nodig hebben. Scripts en reclame in de tekst
zijn irritant ivm het aantal woorden van het artikel dat dan niet goed
geteld wordt, en artikelen met alleen de intro missen juist weer
belangrijke info. Goed dat je het meldt in elk geval, ik laat komende dagen
weten of we de site alsnog willen hebben via je thumbnail-methode of dat we
'm laten zitten. Thanks!

Op 20 juli 2013 17:57 schreef <amcat@googlecode.com> het volgende:

Original comment by carinaja...@nieuwsmonitor.net on 21 Jul 2013 at 1:35

GoogleCodeExporter commented 9 years ago
Volgens mij zijn er een paar scrapers uitgevallen.. tt, noen, kleine
zeitung, heute, news.at en gmx.at hebben niets gescraped gisteren :(

Op 21 juli 2013 15:35 schreef Carina Jacobi
<carinajacobi@nieuwsmonitor.net>het volgende:

Original comment by carinaja...@nieuwsmonitor.net on 23 Jul 2013 at 7:01

GoogleCodeExporter commented 9 years ago
Hoi Carina,

Het probleem is dat de scraping nogal lang duurt, en de Weense scrapers het 
laatst aan de beurt zijn. Alles is nu gescraped.

Wil je dat het eerder klaar is, of gaat het zo wel?

Original comment by Toon.Alfrink@gmail.com on 23 Jul 2013 at 9:21

GoogleCodeExporter commented 9 years ago
Hey Toon,

Oh is dat het gewoon! Gelukkig, ik zie het inderdaad:)
Nee geen probleem hoor, we hebben de artikelen hier toch niet direct nodig.
Ik was alleen even bang dat er iets niet meer werkte, fijn dat dat niet zo
is.
Thanks!

Original comment by carinaja...@nieuwsmonitor.net on 23 Jul 2013 at 9:33

GoogleCodeExporter commented 9 years ago
oe24 ook klaar!

Wel een beetje een verdachte site... Vol onregelmatigheden. Wil je extra goed 
op deze letten?

Original comment by Toon.Alfrink@gmail.com on 25 Jul 2013 at 12:38

GoogleCodeExporter commented 9 years ago
Ja he, lelijke site. Ik hou 'm in de gaten, thanks!

Original comment by carinaja...@nieuwsmonitor.net on 25 Jul 2013 at 12:53

GoogleCodeExporter commented 9 years ago
Gaat nog niet zo goed met deze scraper helaas, hij scrapet best wel vaak
een hele lijst van koppen van andere artikelen mee onder de tekst van het
artikel dat hij zou moeten scrapen, bv. hier:
http://amcat.vu.nl/navigator/project/50/article/42857829. Ook veel
artikelen met 0 woorden (maar dat zijn vaak filmpjes- dat is niet zo erg).
Maar ga maar weer eerst door met de andere scrapers die nog moeten, deze
verbeteren komt dan later. Thanks!

2013/7/25 Carina Jacobi <carinajacobi@nieuwsmonitor.net>

Original comment by carinaja...@nieuwsmonitor.net on 26 Jul 2013 at 1:10

GoogleCodeExporter commented 9 years ago
Ik heb een probleem met nachrichten.at, de website genereert een code met 
javascript die ik nodig heb om de juiste data te krijgen.

Maar als google chrome het kan, kan ik het ook! Het duurt alleen wat langer. Ik 
doe 'm als laatst.

Nachrichten.at is klaar, fijne site! Mijn favoriete scraper tot nu toe :)

Original comment by Toon.Alfrink@gmail.com on 26 Jul 2013 at 2:30

GoogleCodeExporter commented 9 years ago
Het voorbeeld dat je geeft had een slideshow die meegenomen werd in de tekst, 
dat waren de titels van de plaatjes. Wordt nu gefilterd, maar je weet nooit of 
er ander soort clutter onder artikelen staat. Als je vanaf vandaag nog iets 
opmerkt, dan hoor ik het graag.

vienna.at scraper is klaar.

Original comment by Toon.Alfrink@gmail.com on 28 Jul 2013 at 8:01

GoogleCodeExporter commented 9 years ago
Hey Toon,

Ja je hebt gelijk, ik dacht dat het koppen waren maar het waren
onderschriften inderdaad. Dit artikel van gisteren doet het weer:
http://amcat.vu.nl/navigator/project/50/article/43535514, Had je die filter
er al op gezet of is dat pas vanaf later?

Nog een paar dingetjes:
- vienna.at en vol.at hebben vaak wat zooi onder artikelen staan:
http://amcat.vu.nl/navigator/project/50/article/43537082 hier bv. vanaf
#### zum thema. Een aantal andere artikelen (van beide sites) hebben
precies ook dat regeltje erin staan, #### zum thema, en daarna is het niet
meer relevant.
- bij Salzburger Nachrichten doen de URL-links naar de artikelen het niet.
Is dat makkelijk te verhelpen of kan het niet anders?
- news.at neemt ook de commentaren mee als artikeltekst. In amcat is het
onderscheid niet te zien, bv.
http://amcat.vu.nl/navigator/project/50/article/42983860 maar in het
artikel zelf wel:
http://www.news.at/a/dienstrecht-lehrer-verhandlungen-kritik-wallner - het
eerste comment begint met "Neugebauer hat vor Jahren seine Wohnung... " en
dat staat ook in het artikel in amcat. Kun je deze scraper misschien een
beetje aanpassen zodat hij de comments eruit gooit?

Thanks weer!

Op 28 juli 2013 10:02 schreef <amcat@googlecode.com>:

Original comment by carinaja...@nieuwsmonitor.net on 29 Jul 2013 at 11:59

GoogleCodeExporter commented 9 years ago
Hey Toon,

Gisteren hebben tt.com, salzburger nachtrichten, oe24, vienna.at en vol.at 
niets gescraped en heute had maar 8 artikelen. Kun je kijken wat er aan de hand 
is? 
Het is wel de bedoeling dat de scrapers echt van elke dag de artikelen 
verzamelen vanaf vandaag, dus mochten ze een dagje uitvallen, is dat dan later 
nog terug te scrapen?

Groeten,
Carina

Original comment by carinaja...@nieuwsmonitor.net on 1 Aug 2013 at 8:58

GoogleCodeExporter commented 9 years ago
Hoi Carina,

Ik ga er direct achteraan.
Of dat later terug te scrapen is: dat ligt aan de website. Soms houden ze een 
archief bij, soms niet.

Original comment by Toon.Alfrink@gmail.com on 1 Aug 2013 at 10:05

GoogleCodeExporter commented 9 years ago
Heel vreemd, de scrapers staan niet in de logs, alsof ze gewoon zijn 
overgeslagen.. Ik kan nu even niet het probleem inzien. Als ik nu de daily 
draai dan doet ie het wel...
Ik draai ze nu opnieuw. Laten we hopen dat het zich niet weer voordoet, mocht 
dat wel gebeuren dan ga ik op dieper onderzoek uit.

Original comment by Toon.Alfrink@gmail.com on 1 Aug 2013 at 10:32

GoogleCodeExporter commented 9 years ago
Ok, prima. Ik check elke middag sowieso in amcat of de scrapers gescraped
hebben, dus als het nog een keer gebeurt dan laat ik het wel weten.

Op 1 augustus 2013 12:32 schreef <amcat@googlecode.com>:

Original comment by carinaja...@nieuwsmonitor.net on 1 Aug 2013 at 10:37

GoogleCodeExporter commented 9 years ago
Hey Toon,

Gisteren hebben de meeste scrapers wel goed gedraaid, alleen heute.at heeft
best wel veel artikelen gemist (maar 6 artikelen gescraped terwijl er meer
nieuwe op de site stonden). Zijn die nog terug te scrapen?

Op 1 augustus 2013 12:36 schreef Carina Jacobi <
carinajacobi@nieuwsmonitor.net>:

Original comment by carinaja...@nieuwsmonitor.net on 2 Aug 2013 at 11:27

GoogleCodeExporter commented 9 years ago
Hoi Carina, vandaag fix ik de foutjes waar je het eerder over had.
Vreemd, ik kom weer niet achter de oorzaak. Hij doet het nu wel, 77 artikelen.
Heute heeft gelukkig gewoon een net archief.

Original comment by Toon.Alfrink@gmail.com on 2 Aug 2013 at 2:53

GoogleCodeExporter commented 9 years ago
Zo.

- news.at heeft nu de juiste text
- salzburger artikelen hebben de juiste url (kan in de toekomst nog eens fout 
gaan, maar dan hebben we de informatie om de juiste url te construeren)
- vienna en vol scrapers hebben de juiste text

Original comment by Toon.Alfrink@gmail.com on 2 Aug 2013 at 7:24

GoogleCodeExporter commented 9 years ago
Hey Toon,

Gisteren hebben een paar scrapers 0 artikelen gescraped (of verdacht weinig
artikelen, in het geval van heute.at): oe24, vienna, vol en salzburger
nachrichten. Wil je misschien even nalopen of ze eruit liggen en zo ja, of
de artikelen van gisteren nog terug te scrapen zijn?

oe24 heeft ook nog steeds dat probleem dat hij de onderschriften van de
fotoslideshow van die dag meescraped. Wil je kijken of daar iets aan te
doen is?

de url van salzburger gaat nog steeds goed, top dat die eerdere problemen
opgelost zijn.
Groeten,
Carina

Original comment by carinaja...@nieuwsmonitor.net on 5 Aug 2013 at 1:44

GoogleCodeExporter commented 9 years ago
Ho, nog even over oe24: soms scrapet hij alleen de titel en niet de tekst
van het artikel zelf. Bv. hier:
http://www.oe24.at/oesterreich/politik/Piraten-treten-in-ganz-Oesterreich-an/111
841825
in
amcat: http://amcat.vu.nl/navigator/project/50/article/43804124. Kun je dat
ook fixen?

Op 5 augustus 2013 15:44 schreef Carina Jacobi <
carinajacobi@nieuwsmonitor.net>:

Original comment by carinaja...@nieuwsmonitor.net on 5 Aug 2013 at 2:08