camelot-dev / camelot

A Python library to extract tabular data from PDFs
https://camelot-py.readthedocs.io
MIT License
2.76k stars 446 forks source link

fail when detect abnormal border table #492

Open GloryVu opened 3 months ago

GloryVu commented 3 months ago

Screenshot from 2024-03-25 17-41-44

python code: tables = camelot.read_pdf(temp_pdf.name, pages='1-end', line_scale=60)

result: duplicate table extracted, incorrect table (each border will be a columns/rows)

for table in tables: print('table:\n',table.page,table._bbox,table.df)

console:
table: 1 (72.0, 105.6, 540.48, 124.56) 0 1 2 3 4 0
1 Lãi suất cho vay tối thiểu Thời gian vay tối thiểu
table: 1 (72.24, 103.92, 540.48, 123.6) 0 1 2 3 0 Lãi suất cho vay tối thiểu Thời gian vay tối thiểu table: 2 (72.0, 558.72, 539.52, 720.0) 0 1 2 3 0 6%/năm trong 06 tháng đầu tiên kể từ thời điểm... 36 tháng 1
2 6%/năm trong 12 tháng đầu tiên kể từ thời điểm... 36 tháng 3
4 6%/năm trong 18 tháng đầu tiên kể từ thời điểm... 60 tháng 5
6 6%/năm trong 24 tháng đầu tiên kể từ thời điểm... 60 tháng 7
8 7%/năm trong 36 tháng đầu tiên kể từ thời điểm... 60 tháng table: 2 (72.24, 557.04, 540.48, 719.28) 0 1 2 3 0 6%/năm trong 06 tháng đầu tiên kể từ thời điểm... 36 tháng 1
2 6%/năm trong 12 tháng đầu tiên kể từ thời điểm... 36 tháng 3
4 6%/năm trong 18 tháng đầu tiên kể từ thời điểm... 60 tháng 5
6 6%/năm trong 24 tháng đầu tiên kể từ thời điểm... 60 tháng 7
8 7%/năm trong 36 tháng đầu tiên kể từ thời điểm... 60 tháng

bosd commented 3 months ago

Hey!

As https://github.com/camelot-dev/camelot/issues/343 this repo is no longer maintained, we try to build a maintained fork at pypdf_table_extraction.

Do you want to check out the cod ethere to see if the issue still persists. If so please open an issue there.