proarc / proarc

ProArc - The Production and Archiving System
GNU General Public License v3.0
15 stars 9 forks source link

Konverze K3 dat do NDK METS #1006

Open svetlym opened 4 years ago

svetlym commented 4 years ago

Výhledově bude třeba převést stará data původně vytvořená pro K3 a následně konvertovaná do K4 do archivního formátu podle standardu NDK. To bude znamenat:

svetlym commented 4 years ago

Městská knihovna v Praze má archivovaná FOXML, která byla importovaná do K4, takže by je mohla rovnou importovat do Proarcu bez nutnosti je nejprve vyexportovat z K4.

Tato data obsahují odkazy na imageserver, např.:

  <foxml:datastream ID="IMG_FULL" CONTROL_GROUP="E" STATE="A" VERSIONABLE="false">
    <foxml:datastreamVersion ID="IMG_FULL.0" CREATED="2014-09-25T10:35:48" MIMETYPE="image/jpeg">
      <foxml:contentLocation TYPE="URL" REF="http://imageserver.mlp.cz/imageserver/Archiv/TITULY/1/1__pruvodce_csl__min/1923_U_2023/d_book/UC/JP2/1923_U_2023_045a/big.jpg"/>
    </foxml:datastreamVersion>
  </foxml:datastream>

Moje původní představa byla, že při importu do Proarcu dám do importního adresáře kromě příslušných FOXML také příslušně pojmenované tiffy, OCR a ALTO, stejně jako při importu úplně nového dokumentu. Pro citovaný odkaz by tam tedy byly soubory:

1923_U_2023_045a.tif 1923_U_2023_045a.ocr.txt 1923_U_2023_045a.ocr.xml

kde základ jména souboru (1923_U_2023_045a) odpovídá poslednímu adresáři v odkazu na imageserver (imageserver.mlp.cz/imageserver/Archiv/TITULY/1/1__pruvodce_csl__min/1923_U_2023/d_book/UC/JP2/1923_U_2023_045a/big.jpg)

svetlym commented 4 years ago

Přikládám testovací balíček dat ve formátu používaném v Městské knihovně v Praze:

U_66.ZIP

ZdenkaSera commented 2 years ago

Dořešit, nutné pro Visk projekt.

ZdenkaSera commented 2 years ago

LS kontroloval, vypadá dobře - je v IS a půjde načíst. Bude zapotřebí oprávnění na čtení nebo mazání (pokud by se mělo i mazat). V konfigu bude stará i nová cesta, primárně se bude hledat podle staré, pak podle nové

ZdenkaSera commented 2 years ago

Čekáme na v3.8 jádra, u klienta bude info o kompatibilitě s verzí jádra.

svetlym commented 2 years ago

Dobrý den,

verze 3.8 už vyšla. Znamená to, že tohle můžeme vyzkoušet?

ZdenkaSera commented 2 years ago

@svetlym Poznámky sem do issue jsem psala během schůzky, ale nevím, zda je to hotové. @SykoraLukas bude dostupný v pondělí, prosím, konzultujte pak přímo s ním. Děkuji.

SykoraLukas commented 2 years ago

Nutná konfigurace: https://github.com/proarc/proarc/wiki/Konfigurace#import-foxml-s-odkazy-na-imageserver

svetlym commented 1 year ago

Dobrý den,

procházeli jsme naše issues a tahle čeká, až ji otestujeme. Plně nás teď ale vytěžuje přechod na Kraméria7, takže prosíme ještě o strpení.