Data v PDF - Githubissues

lynt-smitka / khs-crawler

Crawler COVID-19 dat z Krajských hygienických stanic

6 stars 4 forks source link

Data v PDF #16

Open helb opened 4 years ago

helb commented 4 years ago

V PDFku od Ústeckého kraje se zase po aktualizaci všechno zpřeházelo. Opravil jsem to, ale koukám po jiném způsobu, než tahání jednotlivých řádků pdfminerem…

Tohle nevypadá zle: https://camelot-py.readthedocs.io/en/master/

Taky by šlo z celého PDF udělat obrázek a číst ho Tesseractem, to funguje celkem spolehlivě.

helb commented 4 years ago

A znovu se to polamalo… achjo.

Zkouska camelot-py ustecky kraj:

>>> import camelot
>>> tables = camelot.read_pdf("pocet_testovanych_osob_na_covid19_ustecky_kraj.pdf")
>>> tables[1].df
                0                                 1          2
0           okres  pozitivní  \n(kumulativní počet)  uzdravení
1           Děčín                                38         15
2        Chomutov                                15          3
3            Most                                17          1
4      Litoměřice                               144          5
5           Louny                                11          2
6         Teplice                                16          3
7  Ústí nad Labem                                73         17
8          CELKEM                               314         46

chickadee_20200408_235033

helb commented 4 years ago

camelot-py jihomoravsky kraj:

>>> import camelot
>>> tables = camelot.read_pdf("96_141_aktuality.pdf")
>>> tables[0].df
             0              1
0        Okres  Počet případů
1   Brno-město            121
2  Brno-venkov             35
3      Blansko             13
4      Břeclav             72
5      Hodonín              9
6       Vyškov             15
7       Znojmo             45
8   JMK celkem            310

chickadee_20200408_235003

helb commented 4 years ago

camelot-py zlinsky kraj:

>>> import camelot
>>> tables = camelot.read_pdf("info_cov19_zk_8_4_18.pdf")
>>> tables
<TableList n=1>
>>> tables[0].df
                                                   0    1
0  Počet osob s onemocněním COVID-19 ve Zlínském ...     
1                                     okres Kroměříž   25
2                             okres Uherské Hradiště  117
3                                       okres Vsetín   36
4                                         okres Zlín   44
5                                      celkový počet  222

chickadee_20200408_235349 (ty jednoradkove tabulky camelot za tabulky asi nepovazuje, nasel jen tu jednu)

helb commented 4 years ago

Jeste maji PDFko ve Varech, ale tam nejsou ty okresy v tabulce. A funguje zatim bez problemu s pdfminerem.

helb commented 4 years ago

Parsery PDF pro tyhle tri kraje jsou ve vetvi camelot-pdf. Dela se s tim pekne jednoduse, ale dotahlo si to par dalsich baliku (treba opencv). A potrebuje to Tkinter a ghostscript.

@lynt-smitka Co myslite, snese to dalsi zavislost? :) Pripadne to klidne muzu poustet u sebe…