Germanio10 / ugc_sprint_1

Спринт 8. Репозиторий для командного проекта модуля UGC
0 stars 1 forks source link

Ревью етл #27

Open Germanio10 opened 5 months ago

Germanio10 commented 5 months ago
  1. Файл etl/src/storage.json нужно указать в .gitignore

  2. В ETL я бы рекомендовал избегать использования enable_auto_commit, который по умолчанию True https://kafka-python.readthedocs.io/en/master/apidoc/KafkaConsumer.html. C учетом того, что при чтении каждой записи из кафки происходит коммит смещения, во время перезагрузок сервиса батч будет сбрасываться, и данные будут теряться на совсем. Временная метка просмотра, вероятно, не самая важная информация, но с какими-нибудь другими данными этот подход мог и не пройти. В этом случае как вариант - выполнять коммит только после вставки в ClickHouse. https://aiokafka.readthedocs.io/en/stable/consumer.html#manual-vs-automatic-committing

  3. По поводу эффективной вставки данных в ClickHouse - https://clickhouse-driver.readthedocs.io/en/latest/quickstart.html#inserting-data. Особенно посмотрите место, где "To insert data efficiently, provide data separately, and end your statement with a VALUES clause"