NLCR / Standard_NDK

Máme nový web https://standardy.ndk.cz. Záloha dokumentů z webu je stále dostupná na uložišti https://owncloud.cesnet.cz/index.php/s/yB70zl80HuZdKhP.
7 stars 0 forks source link

zásadní chyby v ukázkovém balíčku pro DMF zvuk-gramodesky 0.3 #157

Closed rzeh4n closed 2 years ago

rzeh4n commented 3 years ago

Na stránce https://old.ndk.cz/standardy-digitalizace/metadata je v sekci Vzorové SIP balíčky odkaz na ukázkový balíček pro DMF zvukové dokumenty (gramodesky): https://owncloud.cesnet.cz/index.php/s/ZzQvmhivstWIuAb/download

Ten ale obsahuje zásadní chyby, které znemožňují další zpracování. Vybrané chyby jsem opravil, konkrétně:

Opravená verze je zde: https://www.dropbox.com/s/oi0yjus7u5yfv78/1234567890.zip (odkaz bude funkční minimálně měsíc)

Téměř každé UUID bylo neplatné a to buď samotnou délkou (musí být 8-4-4-4-12, někdy tam bylo 8-4-4-4-10), tak obsahem (jen hexadecimální znaky 0-9,a-f), což nesplňuje třeba 263e8795-k54e-15e4-r789-824600127960.

Také bych poprosil o úpravu popisku. Jen z verze (0.3) se dá tušit, že se jedná o vzorový balíček pro DMF Zvuk-gramodesky 0.3 a ne DMF Zvuk-fonovalecky 0.3, jelikož druhý zmíněný standard v takové verzi není zveřejněn, ačkoliv se o něm píše v textu DMF Zvuk-fonovalecky 0.4.

rzeh4n commented 3 years ago

Mimochodem co takhle mít ty ukázkové balíčky (rozbalené) rovnou tady v gitu? Dalo by se odkazovat na nejasnosti, byla by tam historie změn apod.

rzeh4n commented 3 years ago

Objevil jsem další problém: Ač je na straně 90 uvedeno kódování ALTO XML i TXT OCR musí být v UTF-8, dva textové soubory jsou v UTF-16:

Martin-iMac:1234567890 martin$ file txt/txt_1234567890_0002.txt
txt/txt_1234567890_0002.txt: Little-endian UTF-16 Unicode text, with CRLF line terminators
Martin-iMac:1234567890 martin$ file txt/txt_1234567890_0001.txt 
txt/txt_1234567890_0001.txt: Little-endian UTF-16 Unicode text, with CRLF line terminators
Martin-iMac:1234567890 martin$ file alto/alto_1234567890_0001.xml 
alto/alto_1234567890_0001.xml: XML 1.0 document text, UTF-8 Unicode (with BOM) text, with very long lines, with CRLF line terminators
Martin-iMac:1234567890 martin$ file alto/alto_1234567890_0002.xml 
alto/alto_1234567890_0002.xml: XML 1.0 document text, UTF-8 Unicode (with BOM) text, with very long lines, with CRLF line terminators

(soubory alto jsou v pořádku).

To způsobuje praktické problémy v Krameriovi, např. nemožnost indexace.

V opraveném balíčku jsem konvertoval oba soubory do utf-8: https://www.dropbox.com/s/r81iyv55ukn5hxn/1234567890.zip

vjirousek commented 2 years ago

Díky, opravený balíček je dostupný na webu standardů: https://standardy.ndk.cz/ndk/standardy-digitalizace/metadata

Mimochodem co takhle mít ty ukázkové balíčky (rozbalené) rovnou tady v gitu? Dalo by se odkazovat na nejasnosti, byla by tam historie změn apod.

Můžeme to zkusit do budoucna nějak vymyslet. Ticket ale zatím zavírám, týkal se primárně konkrétního balíčku.