boringType / fraud_detection

0 stars 0 forks source link

Оценить затраты на поддержание spark-кластера #11

Open boringType opened 1 year ago

boringType commented 1 year ago

Необходимо оценить месячные затраты на поддержание spark-кластера, состоящего из одной мастер-ноды одна ВМ (2vCPU, 8гб RAM, 40гб ssd диск), 3-х дата-нод три ВМ (4vCPU, 16гб RAM, 128гь hdd диск). А также необходимо оценить, насколько использование HDFS-хранилища дороже, чем объектного.

boringType commented 1 year ago

Spark-кластер состоит из одной Мастер ноды (2vCPU, 8гб RAM, 40гб ssd диск), 3-х дата-нод (4vCPU, 16гб RAM, 128гь hdd диск). Также есть затраты на публичный ip-адрес для мастер ноды и затраты на поддержание dataproc инфраструктуры между хостами кластера.

Согласно калькулятору yandex cloud получаем 4120 руб/мес для поддержания мастер-ноды (с учетом затрат на публичный ip-адрес и поддержания инфраструктуры кластера "dataproc" затраты) и 22000 руб/мес для поддержания 3-х дата-нод (также с учетом затрат для поддержания инфраструктуры dataproc, но без публичного ip-адреса).
Итого получаем 26120 руб/мес (без учета object storage), если округлить, то примерно 26500-30000 руб/мес.
Для сравнения стоимость object storage (s3 bucket) со стандартным хранением с объемом 200ГБ (объем наших данных для обучения 123гб) стоит 400 руб/мес, а объемом 3*128гб как в дата-нодах = 770 руб/мес, а 424гб (как в сумме с мастер-нодой) в месяц обойдется в 850-900 руб.