Czyszczenie plików CSV

arekziobrowski / gdelt-big-data

0 stars 0 forks source link

Czyszczenie plików CSV #13

Closed arekziobrowski closed 4 years ago

arekziobrowski commented 4 years ago

Wykorzystać MapReduce do oczyszczenia pliku HDFS z CSV (YYYYMMDDHHmmss.export.csv). Katalog, do którego trafi oczyszczony plik powinien być parametryzowany przez RUN_CONTROL_DATE.

Na końcu przetwarzania (możliwe jako osobny proces) zrobić zlepienie wszystkich YYYYMMDDHHmmss z danego dnia w jeden plik /etl/staging/cleansed/RUN_CONTROL_DATE/articles-data-cleansed.dat.

jakubbrodzinski commented 4 years ago

W docu nalezy zmienić:

[x] Nie mamy pośrednich wyników od razu jest combine,
[x] Pliki wyjściowe mają "-r-0000" w sobie.
[x] /etl/staging/cleansed/{RUN_CONTROL_DATE}/distinct/ i /etl/staging/cleansed/{RUN_CONTROL_DATE}/cleaned/