boringType / fraud_detection

0 stars 0 forks source link

Перенос данных на кластер с файловой системой HDFS #10

Open boringType opened 1 year ago

boringType commented 1 year ago

Необходимо скопировать данные для обучения в HDFS для дальнейшей работы с ними.

Решение:

Подключаясь к мастер-ноде кластера с HDFS запускаем там команду hadoop distcp для копирования файлов в распределенную файловую систему HDFS. Происходит размещение ~113 Гб данных на дисках data-нод с фактором репликации 1.

Для копирования нужно ввести команду (из документации yandex cloud):

hadoop distcp \ -D fs.s3a.bucket.dataproc-examples.endpoint=storage.yandexcloud.net \ -D fs.s3a.bucket.dataproc-examples.access.key= \ -D fs.s3a.bucket.dataproc-examples.secret.key= \ -update \ -skipcrccheck \ -numListstatusThreads 10 \ s3a://<бакет> \ hdfs://<хост HDFS>/<путь>/

Или если бакет публичный: hadoop distcp s3a://<бакет> /<путь>/

boringType commented 1 year ago

Кластер создан. Данные перенесены. Скриншот объектов в целевой директории файловой системы HDFS, где хранятся данные для обучения:

Image