Open marcinlawnik opened 7 years ago
Wyciąganie danych z PDF'a: Krok 1: Zamiana Pdfa na obrazki: convert -limit memory 1 -limit map 1 -density 500 trios.pdf -quality 100 trios.png
Extract text from images
for i in *.png; do echo $i NUMBER=${i//[^0-9]/} echo $NUMBER tesseract $i "trios-$NUMBER" -l eng done
Przydałoby się dodać ok. 50 Trios tak aby się cały czas nie powtarzały jak będziemy demonstrować. Mam książkę 1001 Trios w PDF i konwertowałem ją do TXT, ale trzebaby napisać skrypt importujący z tych plików txt żeby nie kopiować ręcznie. Do podziału na mniejsze zadania.