Open marcinlawnik opened 7 years ago
Powiązane: #11
Trzebaby dodać zamianę znaków specjalnych, bo ocr trochę przekombinował:
https://mlichtenberg.wordpress.com/2015/09/11/ligatures-in-tesseract-ocr-output/
Widać te "ligatures" po przekonewertowaniu na JSON.
Lista plików nieprzetworzonych:
Couldn't parse following files:
trios-003.txt
trios-004.txt
trios-006.txt
trios-008.txt
trios-011.txt
trios-013.txt
trios-014.txt
trios-015.txt
trios-016.txt
trios-017.txt
trios-018.txt
trios-019.txt
trios-023.txt
trios-024.txt
trios-027.txt
trios-029.txt
trios-031.txt
trios-034.txt
trios-037.txt
trios-041.txt
trios-043.txt
trios-044.txt
trios-045.txt
trios-046.txt
trios-047.txt
trios-052.txt
trios-054.txt
trios-058.txt
trios-062.txt
trios-064.txt
trios-069.txt
trios-071.txt
trios-077.txt
trios-083.txt
trios-089.txt
trios-090.txt
trios-092.txt
trios-093.txt
trios-095.txt
trios-101.txt
trios-102.txt
trios-103.txt
trios-104.txt
trios-106.txt
trios-109.txt
trios-111.txt
trios-113.txt
trios-115.txt
trios-117.txt
trios-118.txt
trios-119.txt
trios-120.txt
trios-133.txt
trios-135.txt
trios-136.txt
trios-137.txt
trios-139.txt
trios-141.txt
trios-146.txt
trios-149.txt
trios-152.txt
trios-153.txt
trios-154.txt
trios-159.txt
trios-160.txt
trios-164.txt
trios-165.txt
trios-166.txt
trios-167.txt
trios-171.txt
trios-172.txt
trios-173.txt
trios-176.txt
trios-178.txt
trios-185.txt
trios-189.txt
trios-190.txt
trios-191.txt
trios-192.txt
trios-193.txt
trios-195.txt
trios-198.txt
trios-206.txt
trios-207.txt
trios-208.txt
trios-212.txt
trios-214.txt
trios-216.txt
trios-220.txt
trios-228.txt
trios-236.txt
trios-238.txt
trios-240.txt
trios-243.txt
trios-244.txt
trios-245.txt
trios-246.txt
trios-247.txt
trios-249.txt
Pozostało zaimportować ręcznie te które skrypt pominął.
Couldn't parse following files:
trios-008.txt
trios-013.txt
trios-015.txt
trios-017.txt
trios-019.txt
trios-023.txt
trios-027.txt
trios-029.txt
trios-031.txt
trios-037.txt
trios-041.txt
trios-043.txt
trios-047.txt
trios-054.txt
trios-069.txt
trios-090.txt
trios-120.txt
trios-135.txt
trios-136.txt
trios-141.txt
trios-146.txt
trios-152.txt
trios-247.txt
Przykładowy plik po konwersji:
Pliki się jeszcze chwilę pokonwertują, testujcie na tym. Ktoś chętny? @knopers666 @MichalDolata Można to napisać jako komendę -.txt
php artisan import:txt
- pliki mają nazwy trios-