LIBCAS / DL4DH

DL4DH – development of tools for effective utilization and mining of data from digital libraries to reinforce digital humanities research
GNU General Public License v3.0
8 stars 2 forks source link

Obohatenie o MARC záznam #4

Closed bodnarIQ closed 2 years ago

bodnarIQ commented 3 years ago

Ukážka MARC záznamu: https://vufind.mzk.cz/Record/MZK01-000000119/Details#tabnav

Publikácie majú byť obohatené o MARC záznamy - čo všetko z MARC záznamu máme preberať, a ako s tým ďaľej pracovať? Má byť niečo určené pre filtrovanie?

Prístup k MARC záznamom MARC záznam môžeme získať cez api aleph.mzk.cz/OAI, kde ale potrebujeme ID záznamu. Ukážka: https://aleph.mzk.cz/OAI/?verb=GetRecord&identifier=oai:aleph.mzk.cz:MZK01-000000119&metadataPrefix=marc21 - MARC záznam pre ID oai:aleph.mzk.cz:MZK01-000000119. Odkiaľ tento identifikátor vieme získať?

bukovskyIQ commented 3 years ago

@MLhotak

bukovskyIQ commented 3 years ago

Zdravíme, potřebovali bychom vaši součinnost při tomto issues. @MLhotak @zabak

motyc commented 3 years ago

Nešlo by vyjít z tohoto? https://github.com/LIBCAS/INDIHU-Mind/issues/46#issuecomment-572072818

zabak commented 3 years ago

MARC a na něj navázané standardy zaberou minimálně jednu poličku v knihovničce, tj. není to úplně triviální formát. Pro úplně základní orientaci se dá pracovat s tím co se zkonvertovalo do MODSu, MARC je vhodný pro referenci, kdyby se převodem do MODSu něco ztratilo, nebo kdyby byl MARC záznam v katalogu aktualizován. Identifikátor je báze-systémové číslo. Je specifické pro knihovní systém Aleph. Skládá se z názvu bibliografické báze (za MZK v Krameriu najdete MZK01 a MZK03) a devítimístného systémového čísla. To najdete v MODSu jako <identifier type="sysno">000745801</identifier> ale chybí tam bohužel název báze. Asi jediný způsob, jak získat MARC záznam je proto pokusit se stáhnout dané systémové číslo z obou bází a porovnat že sedí ostatní identifikátory (shelflocator = 910$b apod.). POZOR! GetRecord sice funguje v MZK v obou bázích, ale obecně funguje jen v první nadefinované bázi https://aleph.mzk.cz/OAI/?verb=ListSets - my v MZK máme proto jako první nadefinovanou bázi MZKALL, ve které jsou záznamy ze všech ostatních podporovaných bází dohromady. Tohle bude problém především v NK, kde mají jako první bázi Národních autorit.

JanMeritus commented 3 years ago

obecne je to otazka sirky integrace mezi digitalni knihovnou DK a katalogem knihovny , ktera je nekde sirsi nekde uzsi. Vyhledove by melo byt mozne mit cerstva data z katalogu a mit je pribalena k vystupu pro vyzkumniky, ale obavam se, ze to neni proveditelne uplne jednoduse a bude nutna i spoluprace z druhe strany.

Celkove MARC urcite neresit, castecne by to ale vhodne bylo. Pri predpokladu ze tento nastroj bude nasazen ve stejne instituci provozujici i KK by vsak mohlo situaci o neco zjednodusit tim ze spravce KK ma moznost vystavit specialne nadefinovany subset obsahujici zajmova pole, ktere by sme si vybrali z pevneho kryti pro MODS. Zaroven je mozne taky cerpat z narodnich autorit ktore obsahuji identifikatory provazane do dalsich (i mezinarodnich) systemu typu VIAF.

Proc GET RECORD nemuze byt sklizen celkove i z jine baze nez predrazene (tj z ostatnich setu), tak ako zminuje @zabak, je faktem. Nicmene mi neni zrejmy jestli je to proti standardu OAI, nebo proti konkretni implementaci knihovnich systemu. Je to prac ktera neni uplne idealni. Zde je dalsi moznost (co zas delame jinde), si data periodicky sklizet dovnitr a poskytovat interne v ramci systemu. Je to rychlejsi nez jakykoliv dalsi laborovani s tymito limitmi.

Posledni moznost je vyuzit tzv X Servru, ktery v pripade AKS Aleph do jisty miry dokaze suplovat funkcionality pokrocilejsiho API, nicmene spravci se na jeho aktivni vyuziti docela mraci, protoze tvrdi ze jim to primarne knihovni system vytezuje.

zabak commented 3 years ago

Bylo by dobré mít v Krameriu+ k dispozici odpovídající aktuální MARC záznam - ať už jako funkční OAI link, nebo přímo jako záznam. Co se týče Národních autorit, bylo by velmi žádoucí, aby byl Kramerius rozšířený o jejich podporu - aby například indexoval alternativní jména autorů. identifikátory VIAF apod. jsou taky hodně zajímavé. Ale národní autority by měly být k dispozici jako průběžně autualizovaný zdroj dat (samostatná databáze) sloužící pro indexaci všem Krameriům z jednoho místa. A tohle je zrovna případ kdy by informace z národních autorit měly být prolinkované jako LOD. @JanMeritus v NK to není ta předřazená báze proto, že to zabírá místo. Je možné, že až byte na to místo měli, to rozhodnutí už je pár let staré. Hodně věcí by to vyřešilo. Xserver má bezpečnostní problém - dá se přes něj dostat i k osobním údajům čtenářů, proto ho nejde otevřít veřejně. Musela by se před něj posadit custom proxy, která by problematická volání zařízla, resp. pustila jen konkrétním serverům, které k nim přístup mít mají. Co se zátěže týká, možná byste mohli server s Alephem posílit a pomohlo by to...?

motyc commented 3 years ago

Mám dojem, že bychom si měli hlavně definovat, k čemu by MARC záznam, resp. bibliografická data měla v K+ a ve Feederu sloužit. To zatím není úplně jasné, i když náznaky tu padají od kolegů. Proto jsem postoval ten odkaz na Mind, kde jsme z MARC polí vybrali ta z hlediska tvorby bibliografie podstatná (dělal to dr. Polišenský z NK) a ty používáme jako základní stavební kameny pro generátor citací. Tj. podle mne není klíčová otázka "Chceme dostat MARC do K+?", ale "Co chceme, aby uživatel mohl dělat s bibliografickými údaji, se kterými a kde je má vidět či získat?". Pak teprve můžeme řešit technické provedení.

JanMeritus commented 3 years ago

@zabak

  1. souhlas.
  2. Dle vysvetleni si myslim ze je to minimum, naskalovat segment KK by urcite nemel byt problem (vzhledem k tomu v jakych skalach se obecne s Kram pohybujeme). Z me strany je velice zadouci aby tyhlety zdroje mohli byt integrovany poruznu v ramci narodniho ekosystemu referencnich systemu. Muzu pripadne o to zazadat.

@motyc urcite ano, treba pomenovat jednotlive polozky, odkaz je celkem instruktivni. Za mne jde o to aby meli badatele konkretni biblio kontext del, bez dotahovani po samostatni lini z KnihSys a mohli s tim pracovat ako doplnkovym balikem aktualnich dat, ktere muzu vyuzit pri sprave natazenych veci, autorit a jejich perzistentnich ids atd. Je to rovnez castecne reseni pro stary problem rozdilu mezi aktualnimi bib datami a datami v Kram (pro zmenu je nutne upravit LTP verzi)

bukovskyIQ commented 3 years ago

Dobrý den @motyc @zabak @JanMeritus ,

potřebovali bychom z této diskuze blíže upřesnit, zdali budeme přebírat všechna data, která jsou vzpomenuta v odkazu výše - LIBCAS/INDIHU-Mind#46 (comment)

nebo nám vyspecifikujete konečnou množinu dat.

motyc commented 3 years ago

Zde se myslím poněkud změnila situace. Jelikož jsme se dohodli, že v indexu bude celý Kramerius, nemá smysl vybírat, co konkrétně budeme přebírat. Prostě budeme mít k dispozici vše.