NLCR / registrdigitalizace

Národní knihovna - Registr Digitalizace
4 stars 2 forks source link

sklízení RD do Knihovny.cz #664

Closed zabak closed 5 years ago

zabak commented 5 years ago

Bylo by možné sklízet obsah RD do portálu Knihovny.cz? Jde mi hlavně o identifikátory a linky do Krameria, spíš jako kontrolu než že bychom to samostatně prezentovali. Stačí formou jednorázových kompletních exportů databáze jednou za čas. Šlo by? Nebo jestli na to už máte nějaké API?

lucka-pavlova commented 5 years ago

Prosim zjistete moznosti Webservice. Zvážit rozšíření.

lucka-pavlova commented 5 years ago

@zabak , napište prosím seznam polí, které byste chtěli mít v exportu.

zabak commented 5 years ago

V ideálním případě kompletní záznamy včetně všeho. Ale nevím co vlastně máte za pole :-)

SykoraLukas commented 5 years ago

Posílám seznam polí, která můžeme poskytnout (po konzultaci s @lucka-pavlova a @Foltom)

RdExport20190307.zip

zabak commented 5 years ago

@SykoraLukas tohle vyhovuje

zabak commented 5 years ago

Jaký bude další postup? Budete dělat webservice?

SykoraLukas commented 5 years ago

Ne, udělám vám export záznamu z databaze

zabak commented 5 years ago

Export vypadá použitelně, můžete udělat kompletní export?

SykoraLukas commented 5 years ago

@zabak nebylo by pro vas lepší mít přístup do databáze, k view udělanému pro tyto pole? Celkem je v databázi přes 500 tisíc záznamů a velikost takového souboru by byla obrovská

zabak commented 5 years ago

Zas tak velké by to nebylo, běžně pracujeme se soubory obsahujícími i miliony záznamů. Když to budu tahat přímo z databáze, tak budu muset mít přístup na daný server a tam si budu muset napsat exportní skript, který už máte hotový navíc tam budu stejně potřebovat i místo na disku abych si to odtud mohl stáhnout.

SykoraLukas commented 5 years ago

Zaslal jsem vám export v emailu pomocí uschovny.cz (zip má 170 MB, csv soubor 1,8 GB)

zabak commented 5 years ago

Díky, zítra stáhneme.

zabak commented 5 years ago

@SykoraLukas narazili jsme na problém - ty MARC záznamy jsou nějaké ukousnuté. níže na ukázku konec prvního marc záznamu z CSV, který končí <sub" a pokračuje další údaj toho csv.

Je to proto, že to máte takto ukousnuté i v databázi, nebo je to jiná chyba?

   <datafield ind1=""4"" ind2=""1"" tag=""856"">
         <sub","Kníže Igor","Borodin, Aleksandr Porfir'jevič","Praha","Alois Wiesner","1899","","BK","norskeFondy","ABA001","http://kramerius.nkp.cz/kramerius/handle/ABA001/11982288","84 s."
"1001137702","54 H 0000046/Č.106-107","NKC01","001810905","nkc20081810905","<?xml version=""1.0"" encoding=""utf-8""?><collection>
SykoraLukas commented 5 years ago

Děkuji za upozornění, nenapadlo mě, že velikost polí v csv souboru je omezená. V databázi je to uložené v pořádku, pracuji nyní na novém exportu.

zabak commented 5 years ago

Udělejte klidně samostatný export xml do jednoho souboru a vedle toho csv, kde bude jen identifikátor každého xml záznamu.

SykoraLukas commented 5 years ago

Poslal jsem vám pře uschovna.cz novou verzi exportu.

lucka-pavlova commented 5 years ago

Je možno uzavřít?

lucka-pavlova commented 5 years ago

Uzavřeno na schůzce 16.7.2019