marians / cologne-ris-scraper

A python-based scraper for the Ratsinformationssystem (RIS) of Cologne, Germany
14 stars 4 forks source link

Tika ausprobieren, wo pdftotext keine Ergebnisse liefert #14

Open marians opened 11 years ago

marians commented 11 years ago

Tika ist (unter anderem) ein Kommandozeilen-Werkzeug in Java, dass Metadaten und Inhalte aus PDFs und anderen Formaten extrahieren kann.

http://tika.apache.org/1.2/gettingstarted.html