stack-spot / stackspot-roadmap

2 stars 0 forks source link

Desenvolvedores perdem tempo e causam problemas aos clientes devido à complexidade de implantar e executar aplicações na nuvem de forma segura #172

Open fernandesZup opened 1 month ago

fernandesZup commented 1 month ago

Dor

Desenvolvedores enfrentam riscos elevados de incidentes ao implantar e executar aplicações em uma infraestrutura de nuvem massiva e complexa, impactando negativamente os clientes do Itaú e comprometendo a estabilidade dos serviços bancários digitais, além de gerar custos operacionais significativos.

Summary

O Itaú opera uma das maiores infraestruturas de nuvem do setor bancário, com uma complexidade que desafia a gestão eficiente e segura. Esta infraestrutura massiva é gerenciada aproximadamente 134 pessoas na comunidade Cloud, criando um cenário propenso a erros e incidentes. Cada implantação ou atualização representa um risco potencial de interrupção de serviço ou falha de segurança que pode afetar diretamente milhões de clientes. A atual solução PaaS (RedHat OpenShift) gera custos elevados. A Cloud Platform visa mitigar esses riscos, simplificando a execução de aplicações nativas da nuvem, fornecendo camadas adicionais de segurança e controle, e otimizando os custos operacionais.

Evidências

Goal

Simplificar o processo de criação, padronização e gerenciamento de containers para desenvolvedores backend, garantindo consistência, segurança e eficiência. Esta é a primeira etapa de uma iniciativa mais ampla do banco para reduzir custos e melhorar operações. Através CS Platform o objetivo é garantir práticas e ferramentas que automatizem a construção e o gerenciamento de containers, padronizar a configuração e proporcionar a visibilidade em tempo real sobre o desempenho e o consumo de recursos. Isso estabelecerá a base para futuras otimizações em outras áreas e personas, contribuindo para a meta global de eficiência operacional e redução de custos em toda a infraestrutura de cloud do banco.

Possible Features

  1. Automação de Construção: Automatizar a construção de containers, reduzindo erros manuais e aumentando a consistência.
  2. Gerenciamento de Imagens: Soluções para versionar, armazenar e otimizar imagens de containers, facilitando a gestão e a eliminação de versões antigas.
  3. Padronização de Configurações: Padrões e templates para a configuração de containers, garantindo uniformidade e conformidade com as melhores práticas.
  4. Monitoramento e Observabilidade: Integração com ferramentas como Datadog para monitorar a performance e a saúde dos containers em tempo real, com alertas e relatórios detalhados.
  5. Orquestração Centralizada: Implementar uma solução de orquestração centralizada para gerenciar os múltiplos clusters e ambientes.
  6. Environment Promoter:
    • Capacidade de promover ambientes de forma fácil e segura.
    • Fluxo automatizado para promoção de aplicações entre ambientes (dev, teste, produção).
  7. Resource Hibernator:
    • Capacidade de dar Stop em ambientes não utilizados para economia de recursos.
    • Retomada rápida de ambientes quando necessário.

Metrics

  1. Economia de R$8M/ano com a substituição do atual PaaS (RedHat OpenShift) entre 2025 e 2028.
  2. Geração de R$50M adicionais através de novos contratos em 2025, suportados pela nova plataforma.
  3. Redução de [x]% nos custos operacionais relacionados à infraestrutura de cloud

Frequency

Alta: Os desafios associados à criação, padronização e gerenciamento de containers ocorrem constantemente, necessitando monitoramento e ajustes regulares para garantir consistência e eficiência.

Coverage

Alta: A cobertura deve abranger todos os aspectos do ciclo de vida dos containers, incluindo criação, configuração, implantação, monitoramento e segurança. Uma abordagem abrangente é essencial para manter a eficiência operacional e minimizar problemas em toda a infraestrutura distribuída.

cadupereira-zup commented 1 month ago

@fernandesZup o que você descreveu na dor tem mais relação com o Summary. A dor em sí é a frase que nomeia o card. Além disso senti falta de evidências claras da dor. Você cita complexidade, desafio etc. mas não relaciona com nenhuma categoria observável como velocidade, qualidade ou eficiência. Queremos melhorar o que? Em quanto?

fernandesZup commented 1 month ago

@cadupereira-zup vou ajustar!

edwardmonteiro commented 1 month ago

Como ficou essa dor ?

fernandesZup commented 1 month ago

@edwardmonteiro boa tarde, estou atualmente realizando uma revisão em todos os epics, incorporando os feedbacks recebidos e alinhando-os com as diretrizes de escrita fornecidas pelo Cadu.

Mas abaixo segue um preview: Estamos direcionando nossa atenção para uma dor que que foi frequentemente mencionada: a questão da infraestrutura excessivamente dispersa por todo o banco Itaú. Esta situação tem se mostrado problemática, resultando em uma organização confusa e causando ineficiências consideráveis em em suas operações.

Estará tudo ajustado até amanhã!