Closed GoogleCodeExporter closed 9 years ago
Zal ik ook de sportsecties meenemen?
Original comment by Toon.Alfrink@gmail.com
on 28 Jun 2013 at 9:49
Nee, die hoeven niet, het gaat vooral om politiek nieuws. Handig trouwens
dat je die sportsecties eruit kunt laten, scheelt weer werk voor mij
achteraf:)
Original comment by carinaja...@nieuwsmonitor.net
on 28 Jun 2013 at 12:36
Dat ligt natuurlijk vooral aan de indeling van de website, soms linkt deze bij
sportartikelen naar een externe website, dan is het een kwestie van niets extra
doen, soms moet ik even er een filtertje op zetten. kleine moeite!
Original comment by Toon.Alfrink@gmail.com
on 28 Jun 2013 at 2:21
orf.at is klaar en draait.
Original comment by Toon.Alfrink@gmail.com
on 3 Jul 2013 at 5:22
orf. at is er volgens mij na 3 artikelen mee opgehouden, of heb je m uitgezet?
En ik zag diepresse.com :) met nog 0 artikelen, klopt dat?
Original comment by carinaja...@nieuwsmonitor.net
on 5 Jul 2013 at 9:20
ja, gaat lekker he? ;) Ik kijk wel even waarom het niet werkt.
Original comment by Toon.Alfrink@gmail.com
on 5 Jul 2013 at 9:51
thanks!
Original comment by carinaja...@nieuwsmonitor.net
on 5 Jul 2013 at 9:58
Gefixt!
De vienna folder had geen __init__.py waardoor de imports niet werkten.
Original comment by Toon.Alfrink@gmail.com
on 5 Jul 2013 at 10:53
De orf.at scraper scraped nog steeds maar ~5 artikelen, maar dit ligt niet aan
de scraper
De website heeft namelijk geen archief en alleen maar actueel nieuws, op het
moment dat de scraper aan de beurt is, ik denk tegen het eind van de ochtend,
is het meeste alweer verdwenen.
Ik zal deze scraper apart laten draaien zodat ie op tijd is.
Original comment by Toon.Alfrink@gmail.com
on 6 Jul 2013 at 7:21
Ok goeie, thanks! Ik hou komende dagen de scraper en de website ook wel in
de gaten, misschien staat elk artikel voor een vaste tijd op de website of
verdwijnt alles op een vast tijdstip. Als ik dat uit kan vinden geef ik het
door.
Original comment by carinaja...@nieuwsmonitor.net
on 7 Jul 2013 at 12:28
derstandard scraper is klaar, heerlijk makkelijke website, kostte maar 10
regels en 20 minuten.
Original comment by Toon.Alfrink@gmail.com
on 7 Jul 2013 at 7:41
orf.at heeft om de paar uur nieuwe artikelen.. doe eerst maar de
makkelijker sites en laat maar weten als een site erg moeilijk te scrapen
is of toestanden geeft zoals de orf site. Ik kan dan altijd nog met de
mensen hier overleggen of ze die site wel echt nodig hebben. Thanks!
Original comment by carinaja...@nieuwsmonitor.net
on 9 Jul 2013 at 6:47
Voor gisteren en vandaag zie ik helemaal geen artikelen meer bij de drie
scrapers (bij derstandard.at helemaal niets, diepresse.com eerst wel maar
laatste dagen niet meer).. met orf.at kun je wel even wachten, maar
standard en presse zouden het wel moeten doen.
Op 9 juli 2013 08:47 schreef Carina Jacobi
<carinajacobi@nieuwsmonitor.net>het volgende:
Original comment by carinaja...@nieuwsmonitor.net
on 9 Jul 2013 at 1:11
Ja, mijn excuses, dat is een globaal probleem dat ik vandaag verwacht op te
lossen.
Wat orf.at betreft: het is geen probleem om die elk uur te laten draaien, net
als de teletekst scraper.
Dan gooien we naderhand de duplicaten er uit.
Original comment by Toon.Alfrink@gmail.com
on 9 Jul 2013 at 1:47
Ok dat zou een mooie oplossing zijn voor orf.at. Als ik zijn articleset op
enable indexing zet en de index elke dag refresh, is dat dan een goeie
manier om de duplicates eruit te gooien?
Original comment by carinaja...@nieuwsmonitor.net
on 9 Jul 2013 at 2:01
Beter nog laat ik 'm dat ook automatisch doen, da's weer een zorg minder voor
jou.
Original comment by Toon.Alfrink@gmail.com
on 9 Jul 2013 at 2:09
cool, thanks!
Original comment by carinaja...@nieuwsmonitor.net
on 9 Jul 2013 at 2:14
krone.at scraper klaar
Is het tempo hoog genoeg of moet het sneller af?
Original comment by Toon.Alfrink@gmail.com
on 14 Jul 2013 at 11:25
Super, thanks! Het is de bedoeling dat vanaf 1 augustus alle scrapers
draaien, gaat dat lukken?
Original comment by carinaja...@nieuwsmonitor.net
on 15 Jul 2013 at 8:15
Prima, dan besteed ik er wat meer tijd aan.
Kurier.at scraper is klaar, lelijke website, totaal geen structuur. Ik laat 'm
ook uurlijks draaien.
Original comment by Toon.Alfrink@gmail.com
on 15 Jul 2013 at 10:33
noen.at scraper ook klaar.
Original comment by Toon.Alfrink@gmail.com
on 16 Jul 2013 at 11:28
evenals kleinezeitung.at
Carina, wil je voor de nieuwe scrapers even checken of alles naar wens is?
Original comment by Toon.Alfrink@gmail.com
on 17 Jul 2013 at 5:43
tt.com scraper klaar
Original comment by Toon.Alfrink@gmail.com
on 17 Jul 2013 at 6:23
Hey Toon,
Super, thanks dat het zo snel gaat ineens! Ik ga tt en kleine zeitung in de
gaten houden zodra ze wat gescraped hebben voor vandaag. De rest ziet er
goed uit. De ene krant heeft wel veel meer artikelen per dag dan de andere,
maar volgens mij ligt dat aan de krant (dat laat ik nog uitzoeken). E�n
klein dingetje: noen.at scraper ziet volgens mij de hele ondertitel als
titel, bv. hier: http://amcat.vu.nl/navigator/project/50/article/41340764.
Kan de ondertitel ("Ob spritzparende Flieger... privater Firmen koppeln" in
dat artikel) ook in een iets kleiner lettertype?
Verder hoorde ik van Joep dat een scraper van de Nieuwsmonitor problemen
heeft (Joep had een issue aangemaakt) en Joep heeft haast, dus geef daar
maar even voorrang aan als je wilt.
Bedankt weer!
Groeten,
Carina
Original comment by carinaja...@nieuwsmonitor.net
on 17 Jul 2013 at 6:47
Goed punt van de ondertitel: Amcat ziet wel degelijk het verschil (als je goed
kijkt zie je een lijntje tussen de titel en de ondertitel) maar geeft het wel
heel lelijk weer. Die ondertitel mag wel wat kleiner.
Maar da's slechts weergave: als je het artikel exporteert dan zijn headline en
byline gescheiden.
Original comment by Toon.Alfrink@gmail.com
on 17 Jul 2013 at 11:13
Ok dat is fijn, dat titel en ondertitel goed van elkaar gescheiden worden
vind ik het belangrijkste. De nieuwssite-artikelen zijn alleen voor de
automatische analyse dus dan maakt de opmaak niet zo heel veel uit.
Op 17 juli 2013 13:13 schreef <amcat@googlecode.com> het volgende:
Original comment by carinaja...@nieuwsmonitor.net
on 17 Jul 2013 at 11:28
Hey Toon,
Nog even over de nieuw scrapers:
1. De TT scraper doet het volgens mij nog niet:
http://amcat.vu.nl/navigator/project/50/articleset/3437.
2 De kleine zeitung heeft de bestandsnamen (?) van afbeeldingen in de tekst
staan, bv. "![Salzburgs UV-Lampen](
http://static2.kleinezeitung.at/system/galleries_520x335/upload/7/0/3/3358147/ra
senlampen1707kk726.jpg)"
in dit artikel: http://amcat.vu.nl/navigator/project/50/article/41394870.
Is er een manier om die uit de tekst te laten? Als dit te fixen is, graag,
maar please pas op het eind als alle scrapers af zijn.
De rest werkt prima voor zover ik zie, thanks!
Groeten,
Carina
Op 17 juli 2013 13:28 schreef Carina Jacobi
<carinajacobi@nieuwsmonitor.net>het volgende:
Original comment by carinaja...@nieuwsmonitor.net
on 18 Jul 2013 at 7:04
Zo, heute scraper klaar. Nog 8/17 te gaan.
Original comment by Toon.Alfrink@gmail.com
on 18 Jul 2013 at 7:05
In de tt scraper zat inderdaad een foutje.
Da's html2text, vaak handig om niet alleen de tekst maar ook links en
dergelijke te krijgen. Joep had ook nog gevraagd naar een scriptje dat dat om
kon draaien, dus dat zal ik binnenkort even maken.
Original comment by Toon.Alfrink@gmail.com
on 18 Jul 2013 at 7:15
news.at scraper ook klaar.
Original comment by Toon.Alfrink@gmail.com
on 18 Jul 2013 at 12:03
Over Google news: Ik kan vaak alleen de URL, de headline, de bron en met wat
moeite de datum scrapen. Het probleem is dat google naar tientallen
verschillende websites linkt met verschillende opmaak.
Ik kan wel een poging doen de tekst te scrapen aan de hand van de thumbnail:
daaruit kan ik afleiden in welke HTML tag in ieder geval een deel van de tekst
staat. Het probleem hiervan is dat misschien soms alleen de intro wordt
meegenomen, soms juist te veel (scripts, reclame etc).
Original comment by Toon.Alfrink@gmail.com
on 20 Jul 2013 at 3:57
Ok, laat Google News dan voorlopig maar even zitten, ik zal bij de anderen
navragen of zij die site echt nodig hebben. Scripts en reclame in de tekst
zijn irritant ivm het aantal woorden van het artikel dat dan niet goed
geteld wordt, en artikelen met alleen de intro missen juist weer
belangrijke info. Goed dat je het meldt in elk geval, ik laat komende dagen
weten of we de site alsnog willen hebben via je thumbnail-methode of dat we
'm laten zitten. Thanks!
Op 20 juli 2013 17:57 schreef <amcat@googlecode.com> het volgende:
Original comment by carinaja...@nieuwsmonitor.net
on 21 Jul 2013 at 1:35
Volgens mij zijn er een paar scrapers uitgevallen.. tt, noen, kleine
zeitung, heute, news.at en gmx.at hebben niets gescraped gisteren :(
Op 21 juli 2013 15:35 schreef Carina Jacobi
<carinajacobi@nieuwsmonitor.net>het volgende:
Original comment by carinaja...@nieuwsmonitor.net
on 23 Jul 2013 at 7:01
Hoi Carina,
Het probleem is dat de scraping nogal lang duurt, en de Weense scrapers het
laatst aan de beurt zijn. Alles is nu gescraped.
Wil je dat het eerder klaar is, of gaat het zo wel?
Original comment by Toon.Alfrink@gmail.com
on 23 Jul 2013 at 9:21
Hey Toon,
Oh is dat het gewoon! Gelukkig, ik zie het inderdaad:)
Nee geen probleem hoor, we hebben de artikelen hier toch niet direct nodig.
Ik was alleen even bang dat er iets niet meer werkte, fijn dat dat niet zo
is.
Thanks!
Original comment by carinaja...@nieuwsmonitor.net
on 23 Jul 2013 at 9:33
oe24 ook klaar!
Wel een beetje een verdachte site... Vol onregelmatigheden. Wil je extra goed
op deze letten?
Original comment by Toon.Alfrink@gmail.com
on 25 Jul 2013 at 12:38
Ja he, lelijke site. Ik hou 'm in de gaten, thanks!
Original comment by carinaja...@nieuwsmonitor.net
on 25 Jul 2013 at 12:53
Gaat nog niet zo goed met deze scraper helaas, hij scrapet best wel vaak
een hele lijst van koppen van andere artikelen mee onder de tekst van het
artikel dat hij zou moeten scrapen, bv. hier:
http://amcat.vu.nl/navigator/project/50/article/42857829. Ook veel
artikelen met 0 woorden (maar dat zijn vaak filmpjes- dat is niet zo erg).
Maar ga maar weer eerst door met de andere scrapers die nog moeten, deze
verbeteren komt dan later. Thanks!
2013/7/25 Carina Jacobi <carinajacobi@nieuwsmonitor.net>
Original comment by carinaja...@nieuwsmonitor.net
on 26 Jul 2013 at 1:10
Ik heb een probleem met nachrichten.at, de website genereert een code met
javascript die ik nodig heb om de juiste data te krijgen.
Maar als google chrome het kan, kan ik het ook! Het duurt alleen wat langer. Ik
doe 'm als laatst.
Nachrichten.at is klaar, fijne site! Mijn favoriete scraper tot nu toe :)
Original comment by Toon.Alfrink@gmail.com
on 26 Jul 2013 at 2:30
Het voorbeeld dat je geeft had een slideshow die meegenomen werd in de tekst,
dat waren de titels van de plaatjes. Wordt nu gefilterd, maar je weet nooit of
er ander soort clutter onder artikelen staat. Als je vanaf vandaag nog iets
opmerkt, dan hoor ik het graag.
vienna.at scraper is klaar.
Original comment by Toon.Alfrink@gmail.com
on 28 Jul 2013 at 8:01
Hey Toon,
Ja je hebt gelijk, ik dacht dat het koppen waren maar het waren
onderschriften inderdaad. Dit artikel van gisteren doet het weer:
http://amcat.vu.nl/navigator/project/50/article/43535514, Had je die filter
er al op gezet of is dat pas vanaf later?
Nog een paar dingetjes:
- vienna.at en vol.at hebben vaak wat zooi onder artikelen staan:
http://amcat.vu.nl/navigator/project/50/article/43537082 hier bv. vanaf
#### zum thema. Een aantal andere artikelen (van beide sites) hebben
precies ook dat regeltje erin staan, #### zum thema, en daarna is het niet
meer relevant.
- bij Salzburger Nachrichten doen de URL-links naar de artikelen het niet.
Is dat makkelijk te verhelpen of kan het niet anders?
- news.at neemt ook de commentaren mee als artikeltekst. In amcat is het
onderscheid niet te zien, bv.
http://amcat.vu.nl/navigator/project/50/article/42983860 maar in het
artikel zelf wel:
http://www.news.at/a/dienstrecht-lehrer-verhandlungen-kritik-wallner - het
eerste comment begint met "Neugebauer hat vor Jahren seine Wohnung... " en
dat staat ook in het artikel in amcat. Kun je deze scraper misschien een
beetje aanpassen zodat hij de comments eruit gooit?
Thanks weer!
Op 28 juli 2013 10:02 schreef <amcat@googlecode.com>:
Original comment by carinaja...@nieuwsmonitor.net
on 29 Jul 2013 at 11:59
Hey Toon,
Gisteren hebben tt.com, salzburger nachtrichten, oe24, vienna.at en vol.at
niets gescraped en heute had maar 8 artikelen. Kun je kijken wat er aan de hand
is?
Het is wel de bedoeling dat de scrapers echt van elke dag de artikelen
verzamelen vanaf vandaag, dus mochten ze een dagje uitvallen, is dat dan later
nog terug te scrapen?
Groeten,
Carina
Original comment by carinaja...@nieuwsmonitor.net
on 1 Aug 2013 at 8:58
Hoi Carina,
Ik ga er direct achteraan.
Of dat later terug te scrapen is: dat ligt aan de website. Soms houden ze een
archief bij, soms niet.
Original comment by Toon.Alfrink@gmail.com
on 1 Aug 2013 at 10:05
Heel vreemd, de scrapers staan niet in de logs, alsof ze gewoon zijn
overgeslagen.. Ik kan nu even niet het probleem inzien. Als ik nu de daily
draai dan doet ie het wel...
Ik draai ze nu opnieuw. Laten we hopen dat het zich niet weer voordoet, mocht
dat wel gebeuren dan ga ik op dieper onderzoek uit.
Original comment by Toon.Alfrink@gmail.com
on 1 Aug 2013 at 10:32
Ok, prima. Ik check elke middag sowieso in amcat of de scrapers gescraped
hebben, dus als het nog een keer gebeurt dan laat ik het wel weten.
Op 1 augustus 2013 12:32 schreef <amcat@googlecode.com>:
Original comment by carinaja...@nieuwsmonitor.net
on 1 Aug 2013 at 10:37
Hey Toon,
Gisteren hebben de meeste scrapers wel goed gedraaid, alleen heute.at heeft
best wel veel artikelen gemist (maar 6 artikelen gescraped terwijl er meer
nieuwe op de site stonden). Zijn die nog terug te scrapen?
Op 1 augustus 2013 12:36 schreef Carina Jacobi <
carinajacobi@nieuwsmonitor.net>:
Original comment by carinaja...@nieuwsmonitor.net
on 2 Aug 2013 at 11:27
Hoi Carina, vandaag fix ik de foutjes waar je het eerder over had.
Vreemd, ik kom weer niet achter de oorzaak. Hij doet het nu wel, 77 artikelen.
Heute heeft gelukkig gewoon een net archief.
Original comment by Toon.Alfrink@gmail.com
on 2 Aug 2013 at 2:53
Zo.
- news.at heeft nu de juiste text
- salzburger artikelen hebben de juiste url (kan in de toekomst nog eens fout
gaan, maar dan hebben we de informatie om de juiste url te construeren)
- vienna en vol scrapers hebben de juiste text
Original comment by Toon.Alfrink@gmail.com
on 2 Aug 2013 at 7:24
Hey Toon,
Gisteren hebben een paar scrapers 0 artikelen gescraped (of verdacht weinig
artikelen, in het geval van heute.at): oe24, vienna, vol en salzburger
nachrichten. Wil je misschien even nalopen of ze eruit liggen en zo ja, of
de artikelen van gisteren nog terug te scrapen zijn?
oe24 heeft ook nog steeds dat probleem dat hij de onderschriften van de
fotoslideshow van die dag meescraped. Wil je kijken of daar iets aan te
doen is?
de url van salzburger gaat nog steeds goed, top dat die eerdere problemen
opgelost zijn.
Groeten,
Carina
Original comment by carinaja...@nieuwsmonitor.net
on 5 Aug 2013 at 1:44
Ho, nog even over oe24: soms scrapet hij alleen de titel en niet de tekst
van het artikel zelf. Bv. hier:
http://www.oe24.at/oesterreich/politik/Piraten-treten-in-ganz-Oesterreich-an/111
841825
in
amcat: http://amcat.vu.nl/navigator/project/50/article/43804124. Kun je dat
ook fixen?
Op 5 augustus 2013 15:44 schreef Carina Jacobi <
carinajacobi@nieuwsmonitor.net>:
Original comment by carinaja...@nieuwsmonitor.net
on 5 Aug 2013 at 2:08
Original issue reported on code.google.com by
carinaja...@nieuwsmonitor.net
on 24 Jun 2013 at 1:07Attachments: