WebarchivCZ / Seeder

Seeder - Czech webarchive curating tool and public site
MIT License
15 stars 2 forks source link

Harvest Section: Generovane semienka maju zdanlivo randomny format #465

Closed JanMeritus closed 6 years ago

JanMeritus commented 6 years ago

Niektore semienka maju v zdruzenom zozname su s protocolom, ine bez neho, bolo by to treba zjednotit (vid prilozeny list). U jednoduchecho listu z jedneho zdroja je uprava v zasade pevna.

seeds-2017-12-V2M.txt

seeds-2017-12-V1M_CUNI_Onesh.txt

kvasnicaj commented 6 years ago

Tohle je na delší debatu, seeder generuje semínka podle toho, jak je vkládají kurátoři. Zvykem bylo, že se ke zdroji dávalo s http://, u tematických sklizní je to různé. Cuni kolekce je bez protokolu, protože je generovaná zpětně ze semínek pro crawler. Tím vznikají nekonzistence, budeme to muset nejprve vyřešit koncepčně a pak případně navrhnout úpravy pro Seeder.

JanMeritus commented 6 years ago

Jop, toz inventura semienok a ich protokolov :D