LIBCAS / DL4DH

DL4DH – development of tools for effective utilization and mining of data from digital libraries to reinforce digital humanities research
GNU General Public License v3.0
8 stars 2 forks source link

Obohatenie textu o narodní autority #5

Closed bodnarIQ closed 3 years ago

bodnarIQ commented 3 years ago

Obohatenie prebehne pomocou služby NameTag. Služba nameTag nám vráti text otagovaný o rozpoznané entity. Z nich sa vyextrahujú entity otagované ako PX - Personal Names. Do DB sa uložia metadáta potrebné pre vytvorenie TEI formátu - Názov entity, pozícia zažiatku, pozícia konca, typ entity, ... Tieto dáta nebudú indexované - nebude možné v nich vyhľadávať, bolo by to zbytočné - vyhľadávanie by nemalo žiadnu pridanú hodnotu, rovnako by sa našli publikácie pri vyhľadávaní v plainTexte/lemmatizovanom texte. Bude možné vyexportovať všetky rozoznané menné entity z daného dokumentu - táto funkcionalita bude použitá hlavne pre zaslanie potrebných informácii do TEI Convertoru pre vytvorenie a uloženie TEI formátu.

Problém nastáva pri prelinkovaní mennej autority s externou databázou. Nemáme efektívny spôsob, akým by sme mohli určiť konkrétnu autoritu, na ktorú autor publikácie myslel pri písaní. Toto by sme mohli vyriešiť tak, že pri rozoznaní mennej entity by sa vytvoril iba URL link do databáze autorít, ale nie na stránku konkrétnej autority, ale na stránku ktorá sa zobrazí pri vyhľadávaní daného reťazca. Vyzeralo by to nejak takto:

Karel IV. byl syn dědičky Přemyslovců Elišky a českého krále Jana Lucemburského.

Jediný spôsob, akým by sme mohli odkazovať na presné záznamy v menných autoritách je manuálna správa rozpoznaných entít a ich prelinku ku konkrétnej mennej autorite knihovníkmi/administrátormi, no pri takomto množsvte dát mi to príde veľmi neefektívne.

Bolo by toto dostatočné riešenie čo sa týka prelinkovania menných autorít do externej databázy?

EDIT: Budeme potrebovať odkazovať na viaceré externé DB? Na čom to bude závisieť? Budeme to mať dopredu definované? Môžme sa spoliehať na to, že pre jeden "typ" metadat(napr. metadata o rozpoznanych mennych autoritach) budeme odkazovať stále na rovnakú externú DB?

bodnarIQ commented 3 years ago

Hlavný problém je Entity Linking - https://github.com/LIBCAS/DL4DH/issues/11

bukovskyIQ commented 3 years ago

Bližší diskuze je v issue #11, tento issue může být zavřen.