Closed arekziobrowski closed 4 years ago
W docu nalezy zmienić:
[x] Nie mamy pośrednich wyników od razu jest combine,
[x] Pliki wyjściowe mają "-r-0000" w sobie.
[x] /etl/staging/cleansed/{RUN_CONTROL_DATE}/distinct/ i /etl/staging/cleansed/{RUN_CONTROL_DATE}/cleaned/
Wykorzystać MapReduce do oczyszczenia pliku HDFS z CSV (
YYYYMMDDHHmmss.export.csv
). Katalog, do którego trafi oczyszczony plik powinien być parametryzowany przez RUN_CONTROL_DATE.Na końcu przetwarzania (możliwe jako osobny proces) zrobić zlepienie wszystkich YYYYMMDDHHmmss z danego dnia w jeden plik
/etl/staging/cleansed/RUN_CONTROL_DATE/articles-data-cleansed.dat
.