Необходимо скопировать данные для обучения в HDFS для дальнейшей работы с ними.
Решение:
Подключаясь к мастер-ноде кластера с HDFS запускаем там команду hadoop distcp для копирования файлов в распределенную файловую систему HDFS. Происходит размещение ~113 Гб данных на дисках data-нод с фактором репликации 1.
Для копирования нужно ввести команду (из документации yandex cloud):
Необходимо скопировать данные для обучения в HDFS для дальнейшей работы с ними.
Решение:
Подключаясь к мастер-ноде кластера с HDFS запускаем там команду hadoop distcp для копирования файлов в распределенную файловую систему HDFS. Происходит размещение ~113 Гб данных на дисках data-нод с фактором репликации 1.
Для копирования нужно ввести команду (из документации yandex cloud):
hadoop distcp \ -D fs.s3a.bucket.dataproc-examples.endpoint=storage.yandexcloud.net \ -D fs.s3a.bucket.dataproc-examples.access.key= \
-D fs.s3a.bucket.dataproc-examples.secret.key= \
-update \
-skipcrccheck \
-numListstatusThreads 10 \
s3a://<бакет> \
hdfs://<хост HDFS>/<путь>/
Или если бакет публичный: hadoop distcp s3a://<бакет> /<путь>/