pavluska / standardy-digitalizace

Automatically exported from code.google.com/p/standardy-digitalizace
0 stars 0 forks source link

nejasné názvy souborů s METS nejvyšší úrovně a info.xml #21

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
Specifikace pro monografie neuvádí jednoznačně, jak se má jmenovat soubor 
s METS na nejvyšší úrovni (tedy pro celou intelektuální entitu). 
Specifikace jen uvádí, že název souboru musí být odvozen od některého 
identifikátoru intelektuální entity. Za předpokladu, že se soubor info.xml 
jmenuje přesně "info.xml" (jak je stávající praxí), je ještě možné 
METS soubor dohledat, měl by to být jediný další soubor s příponou 
".xml". Předpoklad ale není vždy splněn a už jen v příkladě 
(http://www.ndk.cz/digitalizace/nove-standardy-digitalizace-od-roku-2011/specifi
kace_monografie_1-0.pdf s. 13) se soubor info.xml jmenuje 
"INFO_NDK_123456.xml". Navíc i kdyby se existovala konvence pro názvy 
souborů info.xml, navržený algoritmus pro nalezení METS souboru stojí 
ještě na jednom předpokladu - totiž že soubory obsahující XML mají 
přípony ".xml". Tohle ale odstavec "Pojmenování souborů" nevyžaduje a 
nejsem si vědom, že by se to nacházelo někde jinde ve specifikaci. Čili 
vycházím-li striktně ze specifikace, neexistuje způsob, jak rozlišit 
soubory info.xml, Hlavni_METS.xml, MD5. To se dost možná může týkat i 
rozlišení souborů s JP2 a ALTO XML na úrovni stránek.
Pro strojové zpracování, např. konvertorem Krameria, je potřeba 
jednoznačně vědět, jak tyto soubory určit. Proto navrhuji upřesnit 
specifikaci a to např. nějak takto:
1. definovat požadované přípony (xml, md5, txt, jp2)
2. zpřísnit konvenci pro názvy souborů např. takto:
- Název souboru Hlavni_METS.xml musí začínat řetězcem "METS"
- Název souboru info.xml musí začínat řetězcem "INFO" nebo "info"

Aktuální nejasnost způsobuje problémy s importem balíků vzniklých podle 
standardu do Krameria. Viz 
http://code.google.com/p/kramerius/issues/detail?id=503

Original issue reported on code.google.com by Martin.R...@gmail.com on 21 Jan 2013 at 11:49

GoogleCodeExporter commented 9 years ago
Upresneni nazvovych konvencí bude v dalsi verzi definice metadatovych formatu 
dle navrhu.

Přidáno:
Pojmenování souborů:

    každý soubor musí obsahovat předponu a příponu jasně identifikující, o který soubor se jedná:

        hlavní METS musí obsahovat předponu “METS” a příponu .xml. 

(např. METS_ANL_123456789.xml)#

        soubor info.xml musí obsahovat předponu “INFO” a příponu .xml. 

(např. INFO_ANL_123456789.xml)

        vedlejší METS musí obsahovat předponu “AMD_METS” a příponu .xml. 

(např. AMD_METS_ANL_123456789.xml)

        archivní kopie obrazu musí obsahovat předponu “MC” a příponu .jp2. 

(např. MC_ANL_123456789_0001.jp2)

        uživatelská kopie obrazu musí obsahovat předponu “UC” a příponu .jp2. 

(např. UC_ANL_123456789_0001.jp2)

        soubor ALTO musí obsahovat předponu “ALTO” a příponu .xml.

    (např. ALTO_ANL_123456789_0001.xml)

        soubor OCR TXT musí obsahovat předponu “TXT” a příponu .txt.

    (např. TXT_ANL_123456789_0001.txt)

        soubor MD5 musí obsahovat předponu “MD5” a příponu .md5.

    (např. MD5_ANL_123456789.md5) 

Original comment by pavla.svastova@gmail.com on 12 Mar 2013 at 2:51