NLCR / komplexni-validator

Komplexní validátor
http://www.ndk.cz/aktuality/novinky-titulni-strana/seminar-komplexni-validator-v-praxi
Apache License 2.0
8 stars 3 forks source link

"Nečekaná chyba" při kontrole kódování OCR #157

Open jbil7 opened 11 months ago

jbil7 commented 11 months ago

Při validaci pomocí CLI rozhraní validátoru v. 2.3 jsem narazil na tuto chybu:

Sekce OCR TEXT: 1 problém (1x ERROR)
------------------------------------
Pravidlo OCR-TEXT_FILES_IN_UTF8: 1 problém (1x ERROR)
    Všechny soubory OCR-TEXT musí být v kódování UTF-8.
    ERROR: nečekaná chyba: com/ibm/icu/text/CharsetDetector

Sekce OCR ALTO: 1 problém (1x ERROR)
------------------------------------
Pravidlo OCR-ALTO_FILES_IN_UTF8: 1 problém (1x ERROR)
    Všechny soubory OCR-ALTO musí být v kódování UTF-8.
    ERROR: nečekaná chyba: com/ibm/icu/text/CharsetDetector

Chyba se vyskytuje nezávisle na použitém fDMF. K samotné kontrole kódování nedojde.

V rozhraní GUI k této chybě nedochází a kontrola kódování proběhne, byť s nežádoucími výsledky (k tomu viz #151).

jbil7 commented 3 months ago

Kontrola kódování OCR bude počínaje verzí 2.4.2 po dobu řešení tohoto issue dočasně vypnuta.