Jacobvu84 / serenity-pageobject-junit-webdriver

4 stars 1 forks source link

Camelot extract tables from PDFs! #89

Open Jacobvu84 opened 3 years ago

Jacobvu84 commented 3 years ago

Hướng dẫn cài đặt

Nếu bạn gặp issue nào đó có thể đây là cái bạn cần

$ pip uninstall camelot
$ pip uninstall camelot-py
$ pip install camelot-py[cv]

Tài liệu hướng dẫn dùng

Jacobvu84 commented 3 years ago

Extract thông tin trong table thành các định dạng file khác nhau.

camelot --format csv --output hoadon.csv lattice hoadon.pdf

This will export all tables as CSV files at the path specified. Alternatively, you can use f='json', f='excel', f='html' or f='sqlite'.

Jacobvu84 commented 3 years ago

File PDF

Table 1: Có nhiều dòng nhưng giữa các dòng không có dòng kẻ ngang để phân cách giữa các row trong table

Screenshot from 2021-04-16 16-00-29

Kết quả:

Không được như mong muốn, Nguyên nhân là do table trên các row không có kẻ ngang phân cách.

Jacobvu84 commented 3 years ago

Table 2: Đúng chuẩn. Có kẻ ngang, kẻ dọc hình thành các cells

Screenshot from 2021-04-16 16-15-07

Kết quả extract. Tuyệt vời Screenshot from 2021-04-16 16-16-24