Script per trasformare i pdf dei medici di medicina generale della ASL Città di Torino in formato machine readable.
I file in formato JSON sono disponibili nel repository medici-asl-torino.
Il programma di conversione richiede Python 3 installato e la libreria requests.
Su Debian si installano con:
sudo apt install python3 python3-requests
Per prima cosa bisogna trasformare i pdf forniti dalla ASL in testo. Due opzioni testate sono:
pdftotext
, dal progetto poppler
Apache PDFBox
, richiede JavaI file in pdf sono scaricabili da questa pagina
Da una distribuzione Linux installare il pacchetto di utilities di poppler
.
Ad esempio su Debian:
sudo apt install poppler-utils
Mentre su MacOS si trova su brew:
sudo brew install poppler
Una volta installato si può convertire il file con:
pdftotext miofile.pdf miofile.txt
Scaricare la versione pdfbox-app
dalla pagina di download. Al momento l'ultima versione stabile è la 2.0.24.
Il file pdf si può convertire in testo con:
java -jar pdfbox-app-2.0.24.jar ExtractText miofile.pdf miofile.txt
Una volta convertito il pdf in testo è possibile trasformarlo in formato json
:
cat miofile.txt | python3 parse.py > miofile.json
E` possibile fare il geocoding degli indirizzi tramite l'API di Mapbox passando un token (va bene quello pubblico di default) tramite variabile di ambiente da esportare prima della conversione con:
export MAPBOX_ACCESS_TOKEN=ilmiotoken
python3 json2geojson.py miofile.json miofile2.json > miofile.geojson