Wykonać czyszczenie dla article_info.json (może byc w sparku jeśli będzie łatwiej). Należy iterować po INTERVAL. W trakcie cleansowania należy ściagnąć pliki HTML oraz obrazek.
Na końcu (możliwe jako osobny proces) wszystkie article_info.json z INTERVAL połączyć w jeden plik /etl/staging/cleansed/RUN_CONTROL_DATE/articles-api-info-cleansed.dat.
Wykonać czyszczenie dla
article_info.json
(może byc w sparku jeśli będzie łatwiej). Należy iterować po INTERVAL. W trakcie cleansowania należy ściagnąć pliki HTML oraz obrazek.Na końcu (możliwe jako osobny proces) wszystkie article_info.json z INTERVAL połączyć w jeden plik
/etl/staging/cleansed/RUN_CONTROL_DATE/articles-api-info-cleansed.dat
.