ARUP-CAS / aiscr-dapro

OAI-PMH Data Provider pro AMČR
https://api.aiscr.cz/
GNU General Public License v3.0
2 stars 0 forks source link

Po importu dat API negeneruje nový výstup #65

Closed motyc closed 3 years ago

motyc commented 3 years ago

Včera jsem provedl import zhruba 12 tis. dokumentů. V API však dnes nejsou dostupné. Pravděpodobně došlo k chybě při generování dat pro API, protože dnes je není možné ve výstupu nalézt, tím pádem se změna neprojevila ani v Digiarchivu.

Příklad chybějícího dokumentu (v API, v AMČR je v pořádku): https://api.aiscr.cz/dapro/oai?verb=GetRecord&identifier=https://api.aiscr.cz/id/C-DL-200400208&metadataPrefix=oai_amcr

Prosím o rychlé vyřešení.

pbartosova commented 3 years ago

Importy 6.2.2021 skončily chybou kvůli nedostatku operační paměti při vytváření RDF konverze. Je to tím velkým navýšením dokumentů. Když jsme skript psali, rozsah byl testován při nějakém stavu databáze a započítal se do toho odhad navyšování, tohle bylo ale přes odhad. Zvýšila jsem o něco rozsah, který si proces alokuje. Uvidíme, jak dopadnou noční exporty.

motyc commented 3 years ago

Díky za reakci. Uvidíme tedy. Nevím, ze kterých odhadů vycházíš, ale stále jde o velice málo dat. Obecně dokumentů bude výhledově více než čtvrt milionu, akcí také již zanedlouho značně přibude.

Jako případné nouzové řešení vidím RDF konverzi dočasně vypnout (podobně jako na testu) a prozatím ji nechat jednou začas proběhnout cíleně (ručně spustit). Na podzim při reimplementaci API bychom to pak vyřešili robustněji.

pbartosova commented 3 years ago

Na produkci jsou aktuální exporty z dnešního dne, nové dokumenty jsou tedy již obsaženy.