LIBCAS / ARCLib

ARCLib – komplexní řešení pro dlouhodobou archivaci digitálních (knihovních) sbírek
GNU General Public License v3.0
4 stars 1 forks source link

Extrakce právních metadat ze vstupních dat #112

Open godnat opened 3 years ago

godnat commented 3 years ago

Z balíčků NDK se do Arclib XML neextrahují právní metadata. Na jedné z minulých schůzek bylo dohodnuto, že je tam chceme. Tj. je potřeba do SIP profilu přidat pokyn na extrakci právních metadat, což myslím nebude těžké a můžeme tímto tento požadavek ukončit, tj. že nám stačí že to bude extrahováno do ArclibXML z metadat popisujících celý dokument (knihu, číslo časopisu apod.)

Jen doplním, že ta právní metadata jsou nepovinná, některé balíčky je mají, některé ne. Přikládám zatím záznam hlavního metadatového záznamu, kde je sekce pro právní metadata.

mets_8040a6a0-d19e-11ea-9a89-005056825209.zip

V SIP profilu jsme to vyzkoušeli s přidáním příkazu , tj. stejně jako u popisných metadat se celá ta sekce administrativních metadat zkopíruje. Ted jsou v administrativních jen právní, ale pokud tam bude něco jiného tak se to taky zkopíruje. A ten příkaz to asi očekává povinně? Tímto je možné požadavek ukončit. Můžeme se ale dále zamyslet nad těmito otázkami: 1. Otázka je, jestli vedle extrakce do ArclibXML se má dělat další krok a to mapování na vyhledávání/vyhledávací obrazovku. Jestli bude potřeba nějak v nich vyhledávat /třeba všechna volně dostupná díla, díla se neznámým statutem, díla kterým autor zemřel v tomto roce apod.) nebo stačí, když to bude vidět v ArclibXML. 2. Právní metadata mohou být zapsána i pro jednotlivé stránky ve vedlejších mets záznamech. Chceme i ta nebo stačí metadata pro celý dokument? 3. Chceme ted řešit jen právní metadata nebo obecně administrativní? V metadatech je sekce určená pro právní metadata v sekci administrativních metadat. Můžeme to ted nastavit, že z této sekce nas zajimaji jen pravni metadata, jina administrativni se prebirat nebudou (ted ani v hlavnim metsu neexistují) nebo nas zajímají jakakoliv administrativní metadata, která se pak prostě do ArclibXML pretahnou? To je jen pro vyuziti v budoucnu s dalšími typy balíků a dat, ted tam jsou jen právní, takže ted pro NDK stačí jen právní.
ZdenekVasek commented 3 years ago

Komentář k otázkám: 1) ARCLib považujeme nyní za nástroj pro "fyzickou" správu dat a jejich dlouhodobou ochranu. Obsahovou správu jsme postupně ve vývoji redukovali, i když část jí tam zůstává. Přehled autorských práv by byl vhodný, ale znamenalo by to celkem rozsáhlou agendu (nestačí status v době ingestu, bylo by třeba řídit dynamicky, tj. mapovat údaje z více elementů. Za dostatečné považuji údaje z této sekce ponechat v ARCLib XML a umožnit v nich vyhledávání fulltextem. Nicméně jako již dříve, je třeba, aby se vyslovili budoucí uživatelé. 2) To považuji za nadbytečné, respektive zvhledem ke způsobu agregace obtížně proveditelné. 3) ARCLib XML by měl být obecně rozšiřitelný, ale bude nutn řešit otázku indexace a dalšího zpracování. V okamžiku, kdy nemáme jasnou představu o obsahu a hlavně využití, tak bych s tím nepracoval.