Open helb opened 4 years ago
A znovu se to polamalo… achjo.
Zkouska camelot-py ustecky kraj:
>>> import camelot
>>> tables = camelot.read_pdf("pocet_testovanych_osob_na_covid19_ustecky_kraj.pdf")
>>> tables[1].df
0 1 2
0 okres pozitivní \n(kumulativní počet) uzdravení
1 Děčín 38 15
2 Chomutov 15 3
3 Most 17 1
4 Litoměřice 144 5
5 Louny 11 2
6 Teplice 16 3
7 Ústí nad Labem 73 17
8 CELKEM 314 46
camelot-py jihomoravsky kraj:
>>> import camelot
>>> tables = camelot.read_pdf("96_141_aktuality.pdf")
>>> tables[0].df
0 1
0 Okres Počet případů
1 Brno-město 121
2 Brno-venkov 35
3 Blansko 13
4 Břeclav 72
5 Hodonín 9
6 Vyškov 15
7 Znojmo 45
8 JMK celkem 310
camelot-py zlinsky kraj:
>>> import camelot
>>> tables = camelot.read_pdf("info_cov19_zk_8_4_18.pdf")
>>> tables
<TableList n=1>
>>> tables[0].df
0 1
0 Počet osob s onemocněním COVID-19 ve Zlínském ...
1 okres Kroměříž 25
2 okres Uherské Hradiště 117
3 okres Vsetín 36
4 okres Zlín 44
5 celkový počet 222
(ty jednoradkove tabulky camelot za tabulky asi nepovazuje, nasel jen tu jednu)
Jeste maji PDFko ve Varech, ale tam nejsou ty okresy v tabulce. A funguje zatim bez problemu s pdfminerem.
Parsery PDF pro tyhle tri kraje jsou ve vetvi camelot-pdf
. Dela se s tim pekne jednoduse, ale dotahlo si to par dalsich baliku (treba opencv). A potrebuje to Tkinter a ghostscript.
@lynt-smitka Co myslite, snese to dalsi zavislost? :) Pripadne to klidne muzu poustet u sebe…
V PDFku od Ústeckého kraje se zase po aktualizaci všechno zpřeházelo. Opravil jsem to, ale koukám po jiném způsobu, než tahání jednotlivých řádků
pdfminer
em…Tohle nevypadá zle: https://camelot-py.readthedocs.io/en/master/
Taky by šlo z celého PDF udělat obrázek a číst ho Tesseractem, to funguje celkem spolehlivě.