Closed Thorsten42 closed 11 years ago
Ich schaue demnächst mal rein, danke für den Hinweis. Habe gerade (wie meistens) beruflich viel zu tun, aber sowas gefällt mir auch nicht, das ist unsauber. Ich fixe das, sobald ich mal dazu komme!
Ich habe mal kurz reingeschaut, und es sieht so aus, als wäre es ein Problem von jsoup, das - auch in der aktuellen Version 1.7.2 - mit der seltsamen HTML-Struktur dieses Buches nicht zurecht kommt. Da hängen Text Nodes in der Luft, und das mag der Parser nicht. Ich denke mal darüber nach, ob das irgendwie zu verhindern ist. In den ersten fünf Minuten ist mir jedenfalls keine einfache Lösung eingefallen. Ich melde mich demnächst wieder.
Update: Nein, es liegt nicht an jsoup, sondern daran, daß der GOC sich beim Umstrukturieren einer HTML-Seite nur sog. Elemente (elements), aber keine anderen Knoten (nodes) wie z.B. Text merkt, der auf oberster Ebene im Body der Seite vorkommt.
Zwischenstand, nachdem ich mal wieder ein halbes Stündchen hineinschauen konnte: Ich denke, ich habe einen Weg gefunden, das Löschen der Textknoten zu verhindern. Ich möchte das aber noch sauber implementieren und testen, ob es dabei nicht versehentlich andere Bücher zerschießt.
Schon mal vielen Dank für die Mühe!
Hallo Alexander,
erstmals vielen Dank für das tolle Programm. Leider hab ich beim säubern des IT-Handbuchs für Fachinformatiker festgestellt, dass der cleaner etwas zu viel wegnimmt und Programmiercode-Beispiele aus dem Buch mit entfernt.
Zum Beispiel: Bei Kap. 9.1.2, ich hab mal ein Vergleichsbeispiel-screenshot zwischen gesäubertem und unverändertem Code gemacht:
Der unveränderte HTML-Code schaut folgendermaßen aus:
Es kann sich sowohl um eingebaute als auch um selbstdefinierte Funktionen handeln. Beispiel:
</li>
</ul>printf ("hallo");
<ul class="gp">
Der gesäuberte Code so:
Es kann sich sowohl um eingebaute als auch um selbstdefinierte Funktionen handeln. Beispiel:
</li>
</ul>
<ul class="gp">
Der Fehler tritt leider durchs ganze Buch hinweg auf.