Closed Visgean closed 3 years ago
(sucasny stav)
https://seeder.webarchiv.cz/seeder/harvests/10/urls
(navrhovany stav - date Y-m-d)
https://seeder.webarchiv.cz/seeder/harvests/serials/2018-01-08/
tam cisto riadky (vo forme cisteho textu), co riadok to semienka, podla parametrov sklizne:
(serials) seeds-2018-01-08-V1M.txt seeds-2018-01-08-VxM.txt (1,2,6,12) seeds-2018-01-08-VNC.txt (NoContract) seeds-2018-01-08-CUNI.cz seeds-2018-01-08-OneShot.txt seeds-2018-01-08-ArchiveIt.txt
(tests, topics, totals) seeds-2018-01-08-T.txt (tests) seeds-2018-01-08-TT.txt (topics) (nepouzivat ale pridavam pre zaujimavost) seeds-2018-01-08-CZNic.txt (totals)
Pod tymito dotazmi sa bude z danej url dat stiahnut semienka:
`
https://seeder.webarchiv.cz/seeder/harvests/typeOfHarvest/Y-m-d/seeds-Y-m-d-shortcutOfType.txt
https://seeder.webarchiv.cz/seeder/harvests/serials/2018-01-08/seeds-2018-01-08-V1M.txt`
seeds-2018-01-08-V1M.txt
seeds-2018-01-08-VxM.txt (1,2,6,12)
seeds-2018-01-08-VNC.txt (NoContract)
seeds-2018-01-08-CUNI.cz
seeds-2018-01-08-OneShot.txt
seeds-2018-01-08-ArchiveIt.txt
ja to moc nechapu, proc tam chces to datum? co bych s tim datem delal?
Podla toho sa dopytam na konkretny zber a typ, kedykolvek cez skript. Datumy tam nemusis nejak extra riesit u tych suborov, si ich premenujem pripadne u seba, ale bolo by fajn ak by to bolo jednotne
hmm takze proste chces stahnout soubory se seminkama podle typu?
jj, takhle rozradene :)
No ono to melo byt puvodne tak ze si to stahujes podle sklizni - kde se dali prave i manualne pridavat seminka...
Ahoj, potrebujem konecne toto zariesit aby som na strane backendu mohol do znacnej miery automatizovat sklizen. Diki moc za prednostne riesenie.
Ahoj @Visgean @kvasnicaj , stale to este nefunguje, aj ked pozeram ze si niekde pridal uz odkazy, ale vo forme:
/seeder/harvests/2018-09-18/0/urls
Tie semienka sa daju zobrat od 0-3/urls dalej nie, ako rovnaky list.
v ramci tejto konkretnej sklizne (Jednorázově, Dvakrát za rok (půlročně), Dvanáctkrát za rok (měsíčně)) by bolo potrebne mat rozdelene dotazovanie u pravidelnej sklizne na:
`/seeder/harvests/2018-09-18/seeds-2018-09-V1M.txt
/seeder/harvests/2018-09-18/seeds-2018-09-V6M.txt
/seeder/harvests/2018-09-18/seeds-2018-09-ArchiveIt.txt`
Problemom, ale mozno dalsim je, ze pravidelna zbierka cuni semienok je mimo mesacnej, s ktorou je vzdy spojena a ma odkaz "None"
U nepravidelnej rsp vyberovej teraz navyse nie je nijaky odkaz len None, pritom by to malo byt nielen mesiac ale aj datum, typova sgla a nazov bez medzier :
/seeder/harvests/2018-09-18/seeds-2018-09-18-TTSrpen1968.txt
Ahoj @JanMeritus , omlouvam se za takove zpozdeni, ted na seederovi pracuji misto Martina a chtel bych co nejdriv vyresit tohle issue.
Aktualne tam jsou ty url ve formatu /seeder/harvests/<datum>/<frequency_per_year>/urls
, coz ti vrati vsechny seedy tech harvests, ktere maji nastavenou <frequency_per_year>
.
Tedy např. /seeder/harvests/2019-03-14/12/urls
vrati vsechny seedy harvestu, ktere jsou scheduled na 2019-03-14
a maji nastavenou (třeba i jako jednu z mnoha) frekvenci sklizne na 12x ročně, tedy měsíčně.
Chces aby ten uvedeny priklad vratil to co doted jenom s jinou url nebo jenom seedy zdrojů, ktere maji nastavenou mesicni frekvenci? Tedy jedno z:
Jak by mely teda vypadat ty url? Z prikladu jsem neco vycetl, ale neni mi to uplne jasne.
/seeder/harvests/serials/<datum>/seeds-<datum>-<shortcut>.txt
nebo /seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
? Pripadne co ty topics/tests/totals?VxM
kde x
je perioda sklizne (napr. 1 = mesicne) nebo pouzit VxM
kde x
je frekvence sklizne (napr. 12 = mesicne)? V databazi a aktualnich url se pouziva frekvence, takze to by bylo mozna trosicku jednodussi, ale jde vesmes jenom o princip, nastavit tam muzu jakekoliv urlVNC
= zdroje se stavem "Bez Smlouvy" nebo neco jineho?OneShot
= zdroje ktere se archivuji jenom jednou?ArchiveIt
= nove zdroje, ktere maji nastavenou normalni frekvenci sklizni ale jeste nebyly ani jednou sklizeny? To budu muset nejspis nejdriv implementovat.TT
= topic collections pro sklizen?tests
a totals
jsou co?Sorry ze jdu na tebe po takove dobe s tolika otazkama, ale nechtel bych to udelat nejak podle sebe a potom to cele menit.
@Fasand pochopil jsem to stejne jako ty
Ahoj, nejak som to uz pustil z hlavy, preto odpovedam teraz, ale skusim este inak - tak aby bolo jasne k comu to je. Semienka nemozu byt zosypane, kedze kazda sklizen moze byt teoreticky inak parametrizovana. Predstava do buducna je nasledovna: Kazdy typ sklizne ma specificke nastaveni. Nektere parametry by se dobudoucna, aspon v zakladnich detailech dali nastavit v Seedru. Ted si ich nastavujeme hlavorucne/skriptovane na crawlerech.
(zjednodusujem) Crawler se dotaze na den sklizne - dostane seznam sklizni, ktore su naplanovane na dane datum. Kazda frekvencia, pripadne typ sa da vyhladovo sklidit v samostatnom dotaze.
Nasledne podla implementace sa dotaze na jednotlive sklizne a dostane ku kazdej (frekvencii alebo typu) semienka.
Tie si ulozi u seba a pusti sa podla parametrizacie, ktoru zatial pozna iba podla typu - serials, topics, tests, topics
ahoj,
ještě to rozepíšu a doplním další odpovědi:
1a dotaz na /seeder/harvests/<datum>
vrátí seznam všech typů semínek (př. false pokud na ten den není plánovaná žádná sklizeň), takže to bude vypadat, pak nějak takto:
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
1b. myslím, že by bylo fajn, aby /seeder/harvests/<datum>/urls
vrátit kompletní seznam všech semínek
jak konkrétně bude vypadat to url není asi úplně důležitý. Buď to bude vypadat takto
/seeder/harvests/<datum>/seeds-<datum>-<shortcut>.txt
nebo to může být třeba
/seeder/harvests/<datum>/<shortcut>/seeds-<datum>.txt
Prostě musí být jasné k jaké sklizní to patří (datum) a jaký typ semínek to je.
přijde mi, že z té konverzace tady není jasný konečný výpis typů semínek
Nejčastější:
Méně časté jsou pak:
ad. formátVxM
by bylo super mít jednotné s databází. Ale asi záleží, jak to máme zvykově v archivu @JanMeritus
Návrh pro sjednocení VxM
formátu v databázi a url:
VxM
použít pouze Vx
, protože by se to dalo použít i na frekvence častější než měsíc, e.g. V365
= každý denV52
= týdně, V12
= měsíčněPotom by tedy všechny povolené zkratky byly:
V1, V2, V4, V6, V12, V52, V365, ArchiveIt, TT-<nazev>, VNC, Tests, Totals, OneShot
Souhlas nebo máte nějaký lepší nápad, @JanMeritus, @kvasnicaj ?
Ahoj,
zatim nepouzivame V365, V52, do buducna sa to ale moze hodit. U ostatneho si urobime prevodovu mennu maticu na nase vyssie uvedene zkratky. Teraz je skor dolezite aby to islo ako funkcionalita a davalo to data co su pod tym mienene. Bude teda mozne:
@Fasand za mě to takto dává smysl, takže souhlas
QA
Po domluve osobne a na Slacku jsem to upravil na nasledujici:
/seeder/harvests/<date>/harvests
: seznam URL pro jednotlive sklizne pro dany den (format YYYY-MM-DD)
/seeder/harvests/<harvest_id>/urls
: vypise vsechna seminka pro sklizen s id harvest_id
. Tato URL bude ve výše zmíněném seznamu.
/seeder/harvests/<date>/shortcut_urls
: seznam URL pro dostupne zkratky pro dany den
/seeder/harvests/<date>/seeds-<date>-<shortcut>.txt
: vsechna seminka pro vsechny sklizne v danem datu, ktere maji nastavenou shortcut. e.g. "seeds-2020-04-21-ArchiveIt.txt" vrati ArchiveIt seminka pro vsechny sklizne na ten dany datum.
Podporovane zkratky: V1, V2, V4, V6, V12, V52, V365, TT-
U tech typovych URL je teda otazka jak budou vlastne uzitecne a jestli jsou vubec ted spravne napsane. Pokud byste o ne tedy meli znovu zajem, chtelo by to asi jeste jednou poradne projit.
Ty nove URL jsou v katalogu (/seeder/harvests/catalogue
) s prikladem data a harvest id pro referenci.
Pokud s tim jste takto spokojeni, tak na to hodim PR, jinak muzu cokoliv zmenit.
zavisle na doreseni #402
hlavne poskytovat rozpis sklizni na dany den/cas a pak pomoci jejich ID poskytnout v jsonu vsechna ostatna metadata dkle #402
zde taky vazba na funkcionalitu #593, ktera trochu meni puvodni zadani, zde by som uzavrel, co na to @Fasand ?
@JanMeritus souhlas, dořešíme v #593
Sklizně