AWSWebcrawler / General

1 stars 0 forks source link

Bucket Partioning #170

Open philippvarga-thi opened 2 years ago

philippvarga-thi commented 2 years ago

Als Data Engineer möchte ich beim Speichern der Daten (Items) partionieren. Das heißt. hier sinnvolle Ablagestruktur erstellen: Beispiel:

hhmm.csv

DoD

MartinCitak commented 2 years ago

Beispielhaft zum ablegen in: Firstcrawlerbucket/ScraperData/YY/MM/DD/hh/mm/\_.csv s3path = ScraperData/YY/MM/DD/hh/mm/\.csv

MartinCitak commented 2 years ago

Beispielhaft zum ablegen in: Firstcrawlerbucket/ErrorHTML/YY/MM/DD/hh/mm/\.html s3_path = ErrorHTML/YY/MM/DD/hh/mm/\.html

MartinCitak commented 2 years ago

Beispielhaft zum ablegen in: Firstcrawlerbucket/ErrorURL/YY/MM/DD/hh/mm/.html s3_path = ErrorURL/YY/MM/DD/hh/mm/\.html Ergänzend pro Eintrag: Name zur HTML Datei