KevM / tikaondotnet

Use the Java Tika text extraction library on the .NET platform
http://kevm.github.io/tikaondotnet/
Apache License 2.0
195 stars 73 forks source link

Bolded substring wrong placed #147

Open Andrei19612015 opened 3 years ago

Andrei19612015 commented 3 years ago

I have a lot pdfs which looked in Acrobat Reader like:

"(кроме ипотеки) в размере: 34 139.33 р. в валюте по ОКВ: 643, в отношении должника (тип должника: физическое лицо): Иванов Иван Иванович, ИНН 352304018162, д.р."

After Tikaondotnet's extraction I got: "(кроме ипотеки) р. в валюте по ОКВ: 643, в отношении должника (тип должника: физическое лицо):в размере: 34 139.33 Иванов Иван Иванович, ИНН 352304018162, д.р."

To be fair, after mark screen and Ctrl-C, in the buffer I got the same error.

But in other utilities (i.e. from IronSoft) I got right placed bolded substrings.

Tika's Version 1.17.1. Кобзарь 2980.pdf