arekziobrowski / gdelt-big-data

0 stars 0 forks source link

Czyszczenie article_info.json #14

Closed arekziobrowski closed 4 years ago

arekziobrowski commented 4 years ago

Wykonać czyszczenie dla article_info.json (może byc w sparku jeśli będzie łatwiej). Należy iterować po INTERVAL. W trakcie cleansowania należy ściagnąć pliki HTML oraz obrazek.

Na końcu (możliwe jako osobny proces) wszystkie article_info.json z INTERVAL połączyć w jeden plik /etl/staging/cleansed/RUN_CONTROL_DATE/articles-api-info-cleansed.dat.

jakubbrodzinski commented 4 years ago

Co nalezy zmienić w docu: