arekziobrowski / gdelt-big-data

0 stars 0 forks source link

Czyszczenie plików CSV #13

Closed arekziobrowski closed 4 years ago

arekziobrowski commented 4 years ago

Wykorzystać MapReduce do oczyszczenia pliku HDFS z CSV (YYYYMMDDHHmmss.export.csv). Katalog, do którego trafi oczyszczony plik powinien być parametryzowany przez RUN_CONTROL_DATE.

Na końcu przetwarzania (możliwe jako osobny proces) zrobić zlepienie wszystkich YYYYMMDDHHmmss z danego dnia w jeden plik /etl/staging/cleansed/RUN_CONTROL_DATE/articles-data-cleansed.dat.

jakubbrodzinski commented 4 years ago

W docu nalezy zmienić: