NLCR / Standard_NDK

Máme nový web https://standardy.ndk.cz. Záloha dokumentů z webu je stále dostupná na uložišti https://owncloud.cesnet.cz/index.php/s/yB70zl80HuZdKhP.
7 stars 0 forks source link

Nulová delka souboru OCR - problém pri importu do Krameria #134

Closed Drahotussky closed 2 years ago

Drahotussky commented 3 years ago

Dobrý den, rád bych se zeptal, zda je v poradku a v souladu se aktualními standardy, když ma prazdna stranka jako vysledek OCR soubor txt s nulovou velikosti, ktery neobsahuje zadny znak? Pri importu balicku s takovy txt do Krameria 5.5.0 skoncil import chybou.

Dekuji

A. Drahotussky

PavlinaKocisova commented 3 years ago

Dobrý den, v DMF máme tento případ klasifikovaný pro soubory ALTO, ze kterého se txt vytváří, jako:

""ALTO XML soubor pro zcela prázdné stránky bude obsahovat element /alto/Layout/Page/PrintSpace, ten ovšem nebude obsahovat podelementy: /alto/Layout/Page/PrintSpace/TextBlock; /alto/Layout/Page/PrintSpace/TextBlock/Illustration; /alto/Layout/Page/PrintSpace/TextBlock/GraphicalElement ani /alto/Layout/Page/PrintSpace/TextBlock/ComposedBlock""

Pro samotné txt v tomto případě DMF neříká nic, ale jelikož se soubory txt vytváří právě z ALTO, domníváme se, že vložit prázdný soubor je logické a mělo by to být v pořádku. Ověříme to ještě u kolegů z příbuzných oddělení, ale za nás v tom v tuto chvíli nevidíme problém.

Drahotussky commented 3 years ago

Ani velikost 0 B není problém? Tato skutecnost vadi pri importu Krameriovi 5.5.0,ale ale bude to v pristi verzi opraveno

Dekuji

godnat commented 3 years ago

Velikost 0 B není problém, neodporuje to Standardu NDK, při importu do úložiště to nevadí, takové balíčky budou přijaty. Záleží asi jak pracuje software pro OCR? Dívali jsme se na jiné balíky a i úplně prázdné stránky tam jeden znak měli a tudíž jejich velikost byla 1 kB (znak vložený OCR softwarem), takže u prázdných stran se zřejmě v balíčcích můžeme setkat s velikostí 0 B i 1 kB.