WebarchivCZ / Seeder

Seeder - Czech webarchive curating tool and public site
MIT License
15 stars 2 forks source link

popis pravidelných sklizní pro sklízeče #346

Closed westfood closed 6 years ago

westfood commented 7 years ago

Nevím jak k tomu přistoupit, ale pro začátek k diskuzi.

Předpokládám, že jméno a anotace sklizně odpovídají polím ve WARC pro jobName a description. Jde o to, jestli by šlo předgenerovat job name. Aby je nemusel technik vytvářet ručně a nevnášel chyby.

Viz příklad: Pro jméno je současné konvence např: Serials 2016-12-1M_2M_CUNI_ArchiveIt Kdy serials znamená pravidelná sklizně, 2016-12 že je naplánovaná na prosinec 2016, 1M a 2M značí semínka z frekvenci každý měsíc a každé dva měsíce, CUNI že jde o semínka Karlovy univerzity ArchiveIT jsou semínka přidaná minulý měsíc s nízkou frekvencí..

Defakto tak vypadá i anotace: Pravidelná sklizeň semínek s měsíční a dvouměsíční frekvencí, sklizeň webů Karlovy univerzity, archivace semínek s nízkou frekvencí přidaných za minulý měsíc.

Jméno pro sklizně se defakto používá i jako prefix pro vytvořené kontejnery: takže kontejnery začínají takto: Serials-2016-12-1M_2M_CUNI_ArchiveIt stejně tak i typ sklizně určuje místo na úložišti a název sklizně: serials/Serials-2016-12-1M_2M_CUNI_ArchiveIt

Visgean commented 7 years ago

ok, jestli tam nejsou nejake nepravidelnosti tak v tom neni problem.

westfood commented 7 years ago

Jo, teď to po sobě čtu a nevyjádřil jsem myšlenku v celku. Chtělo by to ideálně předgenerovat Jméno, Anotaci + prefix a název složky na úložišti.

Visgean commented 7 years ago

hmm potreboval bych nejaky lepsi popis toho algoritmu ktery by to delal.

westfood commented 7 years ago

Algoritmus je podle typu sklizně, frekvence a času. Konkrétní finální znění by bylo dobré probrat s kurátory.

Nevím jak to teď máte definové s járou. Ale sklizní jsou zatím myslím jen tři typy: CZ Serials Topics

A frekvence můžou být, Jára měl na mysli ale i nějaké nové frekvence: FREQ můžout být kombiance 1M, V1, 2M, 6M, 12M, ArchiveIt, NoContract, CUNI

SERIALS jméno: Serials-YYYY-MM-FREQ_FREQ_FREQ.. např: Serials-2016-12-1M_2M_CUNI_ArchiveIt

cesta: serials/jméno např: serials/Serials-2016-12-1M_2M_CUNI_ArchiveIt

anotace: Tady by bylo třeba zřetězit jednotlivé frekvnce např. pro 1M, 2M, NoContract, CUNI, ArchiveIt. Pravidelná sklizeň semínek s měsíční frekvencí, dvou měsíční frekvencí, semínek bez smlouvy, webů karlovy univerzity a archivace semínek s nízkou frekvencí přidaných za minulý měsíc. Příklad: "Pravidelná sklizeň semínek s měsíční frekvencí, dvou měsíční frekvencí, semínek bez smlouvy, webů karlovy univerzity a archivace semínek s nízkou frekvencí přidaných za minulý měsíc. "

CZ jméno: CZ-YYYY-MM např. CZ-2016-04

cesta: cz/jméno např. cz/CZ-2016-04, cz/CZ-2016-12

anotace: Může být fixní až na datum, Celoplošná sklizeň domény .cz v březnu 2017 ((nevím jestli by se zvládlo skloňování)

TOPICS jméno - by měl vytvořit kurátor např. Volby_zastupitelstva_2014, KrajskeVolby2016, CharlesIV, kramerius-info, narodni_lekarska_knihovna, OH-2016-08, retrokon, UK, WA_CLASS

cesta: topics/prefix

např. topics/CharlesIV, topics/KrajskeVolby2016, topics/OH-2016-08, topics/UK, topics/WA_CLASS, topics/Volby_zastupitelstva_2014

anotace - by měl vytvořit kurátor např: Sklizeně k volbám do zastupitelstev 2014, Tematická sklizeň k 700. výroční Karla IV. Speciální sklizeň před změnou webu Národní lékařské knihovny

kvasnicaj commented 6 years ago

částečně součástí nového zadání a bude dále řešeno v budoucnu