Open boringType opened 1 year ago
Spark-кластер состоит из одной Мастер ноды (2vCPU, 8гб RAM, 40гб ssd диск), 3-х дата-нод (4vCPU, 16гб RAM, 128гь hdd диск). Также есть затраты на публичный ip-адрес для мастер ноды и затраты на поддержание dataproc инфраструктуры между хостами кластера.
Согласно калькулятору yandex cloud получаем 4120 руб/мес для поддержания мастер-ноды (с учетом затрат на публичный ip-адрес и поддержания инфраструктуры кластера "dataproc" затраты) и 22000 руб/мес для поддержания 3-х дата-нод (также с учетом затрат для поддержания инфраструктуры dataproc, но без публичного ip-адреса).
Итого получаем 26120 руб/мес (без учета object storage), если округлить, то примерно 26500-30000 руб/мес.
Для сравнения стоимость object storage (s3 bucket) со стандартным хранением с объемом 200ГБ (объем наших данных для обучения 123гб) стоит 400 руб/мес, а объемом 3*128гб как в дата-нодах = 770 руб/мес, а 424гб (как в сумме с мастер-нодой) в месяц обойдется в 850-900 руб.
Необходимо оценить месячные затраты на поддержание spark-кластера, состоящего из одной мастер-ноды одна ВМ (2vCPU, 8гб RAM, 40гб ssd диск), 3-х дата-нод три ВМ (4vCPU, 16гб RAM, 128гь hdd диск). А также необходимо оценить, насколько использование HDFS-хранилища дороже, чем объектного.