WebarchivCZ / Seeder

Seeder - Czech webarchive curating tool and public site
MIT License
15 stars 2 forks source link

klicova slova -> pridavani novych #380

Open Visgean opened 7 years ago

kvasnicaj commented 7 years ago

nevím, jak to plánuješ, ale nová klíčová slova se přidávají pouze přes WA-KAT. Ručně to nesmí jít. (píšu to jen pro jistotu)

Visgean commented 7 years ago

Ok On Wed, 5 Apr 2017 at 14:46, Jaroslav Kvasnica notifications@github.com wrote:

nevím, jak to plánuješ, ale nová klíčová slova se přidávají pouze přes WA-KAT. Ručně to nesmí jít. (píšu to jen pro jistotu)

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/WebarchivCZ/Seeder/issues/380#issuecomment-291866163, or mute the thread https://github.com/notifications/unsubscribe-auth/AAL1KKTkJK7O2iCeUlbkzXSRetCCpsjUks5rs5svgaJpZM4MhlxM .

mariehaskovcova commented 4 years ago

toto je pořád aktuální issue, jde o to, že teď můžou uživatelé Seederu vybírat jen z těch klíčových slov, která už jsou v Seederu (někdo je použil u katal. záznamů) a nelze tam vkládat nová klíčová slova. Nová slova by mělo být možné vkládat na základě komunikace Seederu s WA-KATem.

Jak píše Jára v issue #485 ideálně by měla katalogizace proběhnout ve WA KATu a to se uložit do Seederu (včetně vytvoření nových klíčových slov) viz #364 #380 #450.

Aktuálně to v testu vypadá tak, že semínko se ze Seederu propíše do WA-KATu, ale po vyplnění a vygenerování MARC záznamu se už údaje (klíčová slova) nepropíšou zpátky do Seederu.

Issue #364 řeší asi stejný problém, mohli bychom možná příp. uzavřít, jestli souhlasíš @Fasand a nechat jen toto

Fasand commented 4 years ago

364 asi bude to same, takze klidne muzeme uzavrit.

Kdyz rozkliknete ten WA-KAT odkaz u zdroje, tak se vam tam spravne nactou data ze Seederu? Ted totiz vic prochazim kod i WA-KATu a veskera komunikace je zatim prakticky jen ze strany KATu, ale na testu mi moc nejede az na to generovani souboru. V konzoli haze spoustu erroru, ze nemuze najit ruzne python soubory, zrejme kvuli stare verzi Brythonu a kdo vi cemu jeste.

Vesmes pokud je v KATu spravne nastaveny API Token a ta Seeder URL na /api/source/<pk>, tak nevidim uplne duvod, proc by to nemelo fungovat. Kazdopadne uz kdysi davno se to resilo v https://github.com/WebarchivCZ/WA-KAT/issues/103 a https certifikatem to nejspis nebude, protoze ten je ted validni, tak me napada jedine spatna konfigurace, coz bez logů (idealne z KATu i Seederu) asi nezjistim.

Zkusim si mezitim zprovoznit WA-KAT lokalne, treba na me neco vyskoci.

mariehaskovcova commented 4 years ago

máš pravdu, data ze Seederu se do WA-KATu nepropíšou a ani naopak - znovu jsem otestovala (měla jsem za to, že jsem to v testu viděla). Je to zapeklitý issue, řeší se už dlouho. Potřebuješ nějakou součinnost od nás? Dala bych tomu zatím vyšší prioritu, uvidíš, jak se ti bude dařit, kdyžtak není problém hodit do pozdějšího milestonu, díky

Fasand commented 4 years ago

Pro zacatek by bylo dobre overit, jestli je teda u produkcniho WA-KATu spravne nastaveny ten Seeder token and URL, pripadne jestli ten token, co tam je, je jeste v Seederu aktivni.

Umisteni konfigurace: https://wa-kat.readthedocs.io/en/latest/admin_manual.html#konfigurace-wa-katu Konfiguracni parametry: https://wa-kat.readthedocs.io/en/latest/admin_manual.html#nastaveni-spojeni-do-seederu

Kdyz rozkliknete WA-KAT z produkce, otevre se ta sama instance, co z testu (https://kat.webarchiv.cz/), nebo pro to bezi nejaka jina instance? Pripadne funguje to propojeni alespon castecne na produkci? Stejne by to asi nevysvetlovalo, proc se ta data ani nenactou.

Na to by se mi hodily nejake logy z KATu, ale kdyz se mi to povedlo rozjet na pocitaci, tak jsem tam nic takoveho nenasel, jenom jeden log ze supervisora. Kdyz totiz ten request na Seeder nevyjde, melo by se neco vypsat do stderr (https://github.com/WebarchivCZ/WA-KAT/blob/16d064a3a775dc1d2713debda7847ded52dd2a06/src/wa_kat/connectors/seeder.py#L233), coz by mohlo pomoct najit pricinu problemu.

mariehaskovcova commented 4 years ago

na produkci to propojení taky nefunguje ani směrem ze Seederu do WA-KATu (údaje se ze Seederu do WA-KATu nepřepíšou), ani naopak (po vyplnění WA-KATu se údaje nepromítnou do Seederu)

na produkci se ze Seederu otevírá ta samá instance jako v testu https://kat.webarchiv.cz/ konkrétně např: https://kat.webarchiv.cz/?url_id=10855

kromě toho, že dokumentace je na gitu https://github.com/WebarchivCZ/WA-KAT, k tomu víc nevím.

s logy a tokeny - mohli by nám pomoct prosím případně @horakjirinkp nebo @JanMeritus?

horakjirinkp commented 4 years ago

Nastavení a nasazení aplikace prověřím, případně udělám změnu tak aby tokeny souhlasily.

K logům, co jsem našel a pochopil z repozitáře, tak vše je právě směřováno na supervisora, tam je pak aplikace označena dle šablony. src/wa_kat/templates/conf/supervisord.conf, v podstatě v našem prostředí kde z toho stavíme docker kontejner, tak pak nám poskytuje výstup docker log.

Nevím jakou přesně představu, něco k logům ještě tady src/wa_kat/logger.py,

Zároveň je třeba vytvořit workflow pro sestavení indexu všech klíčových slov wa_kat_build_keyword_index.py a řešit aktualizaci konspektu wa_kat_build_conspects.py

Navrhuji @mariehaskovcova @Fasand posunot milestone, na pozdější vydaní. Na kompletní revizi je třeba více času.

horakjirinkp commented 4 years ago

Situace byla prověřena.

Propojní aplikace WaKatu a Seederu je funkční, kde se Wakat bezproblémově doptá na údaje ze Seederu. Wakat v aktuálním verzi kódu neumožnuje zasílat data zpět do Seederu.

Katalogizace fondu v aplikaci Seeder pracuje s metodou předmětových kategorii a jím podřazeným skupin konspektu a autoritativních termínu. Veškerá data byla převzata z Databáze národních autorit NK ČR a jsou aktualní k vydané revizi Konspektu 2016 bez následných aktualizací.

Data do aplikace Wakat je možno importovat ručně, jinak Wakat využívá předpřiravený dataset, zase v rámci Konspektu 2016. wakat-dataset

mariehaskovcova commented 3 years ago

Jirka nám do Seederu nahrál ručně dtb. klíčových slov z WA-KATu (2016) jako rychlé, nesystémové řešení - tzn. kurátoři je mají v Seederu k dispozici WA-KAT se aktuálně v testu na údaje ze Seederu nedoptá, propojení tedy v praxi není zřejmé. Ještě to probereme, zatím toto issue odkládám na nejvzdálenější mileston

JanMeritus commented 3 years ago

tady se musi prebuildit / upravit WA KAT, mozny rozvoj na @westfood, seeder by ale mel @Fasand mit rozhrani kterym si to cucne

JanMeritus commented 3 years ago

@Fasand poprosim o pripadnu reakci jestli by to takto melo mozny

Fasand commented 3 years ago

@JanMeritus Jestli myslis to rozhrani na tahání dat z WA-KATu, tak by to melo byt mozne a samozrejme by to zaviselo na tom, jak ta data budou na WA-KATu dostupna. Potom by na to asi šel napsat nějaký cron, co by si to synchronizoval třeba každý den.