arekziobrowski / gdelt-big-data

0 stars 0 forks source link

Pozyskanie URL dla CSV #3

Closed arekziobrowski closed 4 years ago

arekziobrowski commented 4 years ago

Skrypt w Pythonie, który pozyska ze strony GDELT wszystkie linki do ściągnięcia CSV za dany dzień (według RUN_CONTROL_DATE). Wygenerować strukturę katalogów dla ekstrakcji sparametryzowaną przez RUN_CONTROL_DATE.

Pozyskane linki powinny być wrzucone na kolejkę w Redis.

Uruchomienie procesu z checkpointa powinno zapełnić kolejkę tylko tym czego nie ma w checkpoincie.

jakubbrodzinski commented 4 years ago

Done