Open the-infinity opened 11 years ago
Ich schau mir das mal an. Etwas seltsam, weil ich Witten sogar schon mal getestet hatte. Erfolgreich, wie ich mich entsinne.
Die Konfigurationsdatei aus https://github.com/marians/scrape-a-ris/blob/master/config/witten.py ist allerdings nicht mehr ganz taufrisch.
Scheint ein grundsätzliches Problem mit den ASP Versionen zu sein, in Bottrop habe ich dasselbe. Ohne Anpassung der Config habe ich das da: Unexpected form target URL 'https://secure.stadt-witten.de/session/bis/ydocstart.asp' - die haben scheinbar also die Art des Downloads bei den ASP Versionen verändert. Mit Aufnahme von ydocstart.asp in ATTACHMENT_DOWNLOAD_TARGET habe ich denselben Fehler wie in Witten.
Das Problem lässt sich durch erweitern der Config lösen. Der Schlüssel ATTACHMENT_DOWNLOAD_TARGET
unter "ASP" muss den Wert ydocstart.asp
beinhalten.
Siehe 19ea659d5a7484ddf3a5ac2964a6a69c81bd20dc
Ich ergänze das jetzt auch noch in der Beispiel-Konfig und weiteren.
Genau das habe ich ja aber bereits im Ursprungspost gemacht - und erhalte den Fehler von weiter oben, wo der Scraper mir die text/html Fehlermeldungen herunterläd statt die Attachments.
Jajaja... Sorry, da habe ich mich zu früh gefreut. Ich guck dann noch mal genauer rein.
Ich hab mir das noch mal genauer angesehen. Leider sehe ich keinen Grund, warum das nicht funktionieren sollte.
Das Formular wird mit mechanize ja ganz einfach nur abgesendet. Es werden, soweit ich sehe, keine Felder gezielt gesetzt oder verändert oder ähnliches. Leider ist mir nicht klar, wie man genauer debuggen könnte. Mechanize ist ein bisschen so was wie eine Blackbox.
Sehr unbefriedigend.
Mit ScraperWiki habe ich jetzt mal ausprobiert, ob es grundsätzlich geht. Siehe https://scraperwiki.com/scrapers/sessionnet_4_poc_1/edit/
Das scheint einwandfrei zu funktionieren.
Dort wird eine leicht andere Version der ASP-Linie eingesetzt, welche u.a. auch eine andere Downloader URL hat. Das Problem tritt bei allen PDFs auf.
Log sieht mit einigen Zusatzausgaben (u.a. das Resultat) so aus:
Verwendete Config: