WebarchivCZ / Seeder

Seeder - Czech webarchive curating tool and public site
MIT License
15 stars 2 forks source link

Uprava Sklizni #468

Closed Visgean closed 3 years ago

Visgean commented 6 years ago

Sklizně

JanMeritus commented 6 years ago

(navrhovany stav - date Y-m-d)

https://seeder.webarchiv.cz/seeder/harvests/serials/2018-01-08/

tam cisto riadky (vo forme cisteho textu), co riadok to semienka, podla parametrov sklizne:

(serials) seeds-2018-01-08-V1M.txt seeds-2018-01-08-VxM.txt (1,2,6,12) seeds-2018-01-08-VNC.txt (NoContract) seeds-2018-01-08-CUNI.cz seeds-2018-01-08-OneShot.txt seeds-2018-01-08-ArchiveIt.txt

(tests, topics, totals) seeds-2018-01-08-T.txt (tests) seeds-2018-01-08-TT.txt (topics) (nepouzivat ale pridavam pre zaujimavost) seeds-2018-01-08-CZNic.txt (totals)



Pod tymito dotazmi sa bude z danej url dat stiahnut semienka:

`
https://seeder.webarchiv.cz/seeder/harvests/typeOfHarvest/Y-m-d/seeds-Y-m-d-shortcutOfType.txt
https://seeder.webarchiv.cz/seeder/harvests/serials/2018-01-08/seeds-2018-01-08-V1M.txt`
Visgean commented 6 years ago
seeds-2018-01-08-V1M.txt
seeds-2018-01-08-VxM.txt (1,2,6,12)
seeds-2018-01-08-VNC.txt (NoContract)
seeds-2018-01-08-CUNI.cz
seeds-2018-01-08-OneShot.txt
seeds-2018-01-08-ArchiveIt.txt

ja to moc nechapu, proc tam chces to datum? co bych s tim datem delal?

JanMeritus commented 6 years ago

Podla toho sa dopytam na konkretny zber a typ, kedykolvek cez skript. Datumy tam nemusis nejak extra riesit u tych suborov, si ich premenujem pripadne u seba, ale bolo by fajn ak by to bolo jednotne

Visgean commented 6 years ago

hmm takze proste chces stahnout soubory se seminkama podle typu?

JanMeritus commented 6 years ago

jj, takhle rozradene :)

Visgean commented 6 years ago

No ono to melo byt puvodne tak ze si to stahujes podle sklizni - kde se dali prave i manualne pridavat seminka...

JanMeritus commented 6 years ago

Ahoj, potrebujem konecne toto zariesit aby som na strane backendu mohol do znacnej miery automatizovat sklizen. Diki moc za prednostne riesenie.

JanMeritus commented 6 years ago

Ahoj @Visgean @kvasnicaj , stale to este nefunguje, aj ked pozeram ze si niekde pridal uz odkazy, ale vo forme:

/seeder/harvests/2018-09-18/0/urls Tie semienka sa daju zobrat od 0-3/urls dalej nie, ako rovnaky list.

v ramci tejto konkretnej sklizne (Jednorázově, Dvakrát za rok (půlročně), Dvanáctkrát za rok (měsíčně)) by bolo potrebne mat rozdelene dotazovanie u pravidelnej sklizne na:

`/seeder/harvests/2018-09-18/seeds-2018-09-V1M.txt

/seeder/harvests/2018-09-18/seeds-2018-09-V6M.txt

/seeder/harvests/2018-09-18/seeds-2018-09-ArchiveIt.txt`

chynyharvest

Problemom, ale mozno dalsim je, ze pravidelna zbierka cuni semienok je mimo mesacnej, s ktorou je vzdy spojena a ma odkaz "None"

chybnyharvest2

U nepravidelnej rsp vyberovej teraz navyse nie je nijaky odkaz len None, pritom by to malo byt nielen mesiac ale aj datum, typova sgla a nazov bez medzier :

/seeder/harvests/2018-09-18/seeds-2018-09-18-TTSrpen1968.txt

Fasand commented 5 years ago

Ahoj @JanMeritus , omlouvam se za takove zpozdeni, ted na seederovi pracuji misto Martina a chtel bych co nejdriv vyresit tohle issue.

Aktualne tam jsou ty url ve formatu /seeder/harvests/<datum>/<frequency_per_year>/urls, coz ti vrati vsechny seedy tech harvests, ktere maji nastavenou <frequency_per_year>. Tedy např. /seeder/harvests/2019-03-14/12/urls vrati vsechny seedy harvestu, ktere jsou scheduled na 2019-03-14 a maji nastavenou (třeba i jako jednu z mnoha) frekvenci sklizne na 12x ročně, tedy měsíčně.

  1. Chces aby ten uvedeny priklad vratil to co doted jenom s jinou url nebo jenom seedy zdrojů, ktere maji nastavenou mesicni frekvenci? Tedy jedno z:

    • Vsechny seedy sklizní pro dané datum, kde sklizne maji nastavenou mesicni frekvenci, nezávisle na frekvenci jednotlivych zdroju v sklizni
    • Seedy zdrojů ve vsech skliznich pro dane datum, kde sklizne maji nastavenou mesicni frekvenci ale i ty samotne zdroje musi mit nastavenou mesicni frekvenci (nevim moc jak lip to popsat. kdyby to bylo nejasne, zkusim na nejakem priklade)
  2. Jak by mely teda vypadat ty url? Z prikladu jsem neco vycetl, ale neni mi to uplne jasne.

    • Melo by to byt /seeder/harvests/serials/<datum>/seeds-<datum>-<shortcut>.txt nebo /seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt? Pripadne co ty topics/tests/totals?
    • Chces nechat format VxM kde x je perioda sklizne (napr. 1 = mesicne) nebo pouzit VxM kde x je frekvence sklizne (napr. 12 = mesicne)? V databazi a aktualnich url se pouziva frekvence, takze to by bylo mozna trosicku jednodussi, ale jde vesmes jenom o princip, nastavit tam muzu jakekoliv url
    • VNC = zdroje se stavem "Bez Smlouvy" nebo neco jineho?
    • OneShot = zdroje ktere se archivuji jenom jednou?
    • ArchiveIt = nove zdroje, ktere maji nastavenou normalni frekvenci sklizni ale jeste nebyly ani jednou sklizeny? To budu muset nejspis nejdriv implementovat.
    • TT = topic collections pro sklizen?
    • tests a totals jsou co?

Sorry ze jdu na tebe po takove dobe s tolika otazkama, ale nechtel bych to udelat nejak podle sebe a potom to cele menit.

Visgean commented 5 years ago

@Fasand pochopil jsem to stejne jako ty

JanMeritus commented 5 years ago

Ahoj, nejak som to uz pustil z hlavy, preto odpovedam teraz, ale skusim este inak - tak aby bolo jasne k comu to je. Semienka nemozu byt zosypane, kedze kazda sklizen moze byt teoreticky inak parametrizovana. Predstava do buducna je nasledovna: Kazdy typ sklizne ma specificke nastaveni. Nektere parametry by se dobudoucna, aspon v zakladnich detailech dali nastavit v Seedru. Ted si ich nastavujeme hlavorucne/skriptovane na crawlerech.

  1. (zjednodusujem) Crawler se dotaze na den sklizne - dostane seznam sklizni, ktore su naplanovane na dane datum. Kazda frekvencia, pripadne typ sa da vyhladovo sklidit v samostatnom dotaze.

  2. Nasledne podla implementace sa dotaze na jednotlive sklizne a dostane ku kazdej (frekvencii alebo typu) semienka.

  3. Tie si ulozi u seba a pusti sa podla parametrizacie, ktoru zatial pozna iba podla typu - serials, topics, tests, topics

kvasnicaj commented 5 years ago

ahoj, ještě to rozepíšu a doplním další odpovědi: 1a dotaz na /seeder/harvests/<datum> vrátí seznam všech typů semínek (př. false pokud na ten den není plánovaná žádná sklizeň), takže to bude vypadat, pak nějak takto:

/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt

1b. myslím, že by bylo fajn, aby /seeder/harvests/<datum>/urls vrátit kompletní seznam všech semínek

  1. jak konkrétně bude vypadat to url není asi úplně důležitý. Buď to bude vypadat takto /seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt nebo to může být třeba /seeder/harvests/<datum>/<shortcut>/seeds-<datum>.txt Prostě musí být jasné k jaké sklizní to patří (datum) a jaký typ semínek to je.

  2. přijde mi, že z té konverzace tady není jasný konečný výpis typů semínek

Nejčastější:

Méně časté jsou pak:

ad. formátVxM by bylo super mít jednotné s databází. Ale asi záleží, jak to máme zvykově v archivu @JanMeritus

Fasand commented 5 years ago

Návrh pro sjednocení VxM formátu v databázi a url:

Potom by tedy všechny povolené zkratky byly: V1, V2, V4, V6, V12, V52, V365, ArchiveIt, TT-<nazev>, VNC, Tests, Totals, OneShot

Souhlas nebo máte nějaký lepší nápad, @JanMeritus, @kvasnicaj ?

JanMeritus commented 5 years ago

Ahoj,

zatim nepouzivame V365, V52, do buducna sa to ale moze hodit. U ostatneho si urobime prevodovu mennu maticu na nase vyssie uvedene zkratky. Teraz je skor dolezite aby to islo ako funkcionalita a davalo to data co su pod tym mienene. Bude teda mozne:

  1. sa dopytat API na konkretny den (napr. ide sa sklizet 20190519)
  2. ako odpoved to hodi to sklizecu zoznam odkazov na jednotlive sklizne (Vx, ArchiveItm TTm VNC, Testsm OneShot) a
  3. z nich si stiahne sklizec seminka, ktore si nakombinuje podla vlastnej potreby (to uz je vec na nastavenie backendu, ktory si to vyriesi sam, ci pusti kazdu podla jednotliveho zoznamu, alebo si ich rozne nakombi).
kvasnicaj commented 5 years ago

@Fasand za mě to takto dává smysl, takže souhlas

JanMeritus commented 5 years ago

QA

Fasand commented 4 years ago

Po domluve osobne a na Slacku jsem to upravil na nasledujici:

URL podle datumu a sklizne

/seeder/harvests/<date>/harvests: seznam URL pro jednotlive sklizne pro dany den (format YYYY-MM-DD) /seeder/harvests/<harvest_id>/urls: vypise vsechna seminka pro sklizen s id harvest_id. Tato URL bude ve výše zmíněném seznamu.

URL podle datumu a typu sklizne

/seeder/harvests/<date>/shortcut_urls: seznam URL pro dostupne zkratky pro dany den /seeder/harvests/<date>/seeds-<date>-<shortcut>.txt: vsechna seminka pro vsechny sklizne v danem datu, ktere maji nastavenou shortcut. e.g. "seeds-2020-04-21-ArchiveIt.txt" vrati ArchiveIt seminka pro vsechny sklizne na ten dany datum.

Podporovane zkratky: V1, V2, V4, V6, V12, V52, V365, TT-, ArchiveIt, OneShot, VNC, Tests, Totals (popis je v predchozich komentarich)

U tech typovych URL je teda otazka jak budou vlastne uzitecne a jestli jsou vubec ted spravne napsane. Pokud byste o ne tedy meli znovu zajem, chtelo by to asi jeste jednou poradne projit.


Ty nove URL jsou v katalogu (/seeder/harvests/catalogue) s prikladem data a harvest id pro referenci.

Pokud s tim jste takto spokojeni, tak na to hodim PR, jinak muzu cokoliv zmenit.

JanMeritus commented 3 years ago

zavisle na doreseni #402

JanMeritus commented 3 years ago

hlavne poskytovat rozpis sklizni na dany den/cas a pak pomoci jejich ID poskytnout v jsonu vsechna ostatna metadata dkle #402

JanMeritus commented 3 years ago

zde taky vazba na funkcionalitu #593, ktera trochu meni puvodni zadani, zde by som uzavrel, co na to @Fasand ?

Fasand commented 3 years ago

@JanMeritus souhlas, dořešíme v #593