Dificuldade na interpretação de logs e identificação da causa raiz dos erros das pipelines.
Summary
Os usuários enfrentam dificuldades em determinar se os erros são originados na pipeline, no projeto ou devido a fatores externos. Embora os logs ofereçam clareza para analistas mais experientes, a visibilidade para as pessoas menos seniores ainda é limitada.Há uma percepção de que os logs poderiam ser mais intuitivos, especialmente no contexto de problemas de deploy de infraestrutura.
Seguem algumas situações em que essa dor foi percebida:
No evento “Dores e Oportunidades de Pipelines”, ocorrido em 02/07 na Zup, com envolvimento de todos os CIO e CTO abaixo da estrutura do Guerra, foram externalizados algumas situações:
“Necessidade de realizar retentativas de execução da pipeline para garantir sucesso, sendo que a retentativa é realizada sem mudança no código e não sabemos o porque deu erro e nem mesmo o porque voltou a funcionar”;
“Logs deveriam ser mais claros”;
“Muito difícil fazer a pipeline funcionar”.
Nas Missões Sandra e Kontopp:
Seguem relatos de alguns usuários:
Quando ocorre algum tipo de problema em tempo de pipeline, não temos de maneira clara a visão do que ocorreu dentro do EDP;
Frequentemente ocorrem erros na pipeline que é necessário fazer a re-execução do step, mas não está claro no log o que ocorreu, apenas executamos para "ver se vai dar certo", onde muitas vezes resolve, mas em outras não;
Seguem alguns exemplos de erros:
Ocorreram algumas situações de erro 500 na pipeline onde após análise foram identificados alguns motivos como:
Instabilidade com a integração de criação de sigla;
Instabilidade do Github;
Instabilidade de APIs da StackSpot;
A pessoa colocou o nome de um repo já existente ao criar uma app e quando executou a pipeline deu erro pois o repo já existia, mas a mensagem não estava clara e foi necessário a análise do time de pipeline.
Na entrevista realizado junto ao Thales Drosghic, que atua no time de Suporte N1, foi relatada a dificuldade que o próprio time de suporte tem de interpretar os logs, chegou a comentar “Se para nós do time de suporte está difícil interpretar o log imagina para o usuário”;
Nas entrevistas realizadas em 09/24 pelo Edward Roberto Monteiro e Igor Gabriel Silva essa foi uma dor percebida no relato dos usuários.
Cluster
Interpretação de logs/erros das pipelines.
Goal
Reduzir em 10% a quantidade de chamados abertos pela Stackpot referente a erro na execução da pipeline.
Possible Features
Integração: Criar botão “Log Assistent” na tela de log do Stackspot EDP, que ao ser selecionado realizada o envio do log da pipeline para análise do Stackspot IA, retornando uma informação mais amigável e assertiva sobre o erro e a possível solução.
Metrics
Quantidade de chamados abertos pela Stackspot com erro na execução das pipelines
Frequency
Alta: Nos últimos 6 meses foram abertos 2.656 chamados referentes a erros de pipeline, o que representa 44% do total de chamados abertos, além da quantidade de pedidos de ajuda via chats no Microsoft Teams e que não conseguimos mensurar.
Coverage
Média: Ocorre principalmente com as pessoas desenvolvedoras de menor senioridade.
The Pain
Dificuldade na interpretação de logs e identificação da causa raiz dos erros das pipelines.
Summary
Os usuários enfrentam dificuldades em determinar se os erros são originados na pipeline, no projeto ou devido a fatores externos. Embora os logs ofereçam clareza para analistas mais experientes, a visibilidade para as pessoas menos seniores ainda é limitada.Há uma percepção de que os logs poderiam ser mais intuitivos, especialmente no contexto de problemas de deploy de infraestrutura.
Seguem algumas situações em que essa dor foi percebida:
Cluster
Interpretação de logs/erros das pipelines.
Goal
Reduzir em 10% a quantidade de chamados abertos pela Stackpot referente a erro na execução da pipeline.
Possible Features
Integração: Criar botão “Log Assistent” na tela de log do Stackspot EDP, que ao ser selecionado realizada o envio do log da pipeline para análise do Stackspot IA, retornando uma informação mais amigável e assertiva sobre o erro e a possível solução.
Metrics
Quantidade de chamados abertos pela Stackspot com erro na execução das pipelines
Frequency
Alta: Nos últimos 6 meses foram abertos 2.656 chamados referentes a erros de pipeline, o que representa 44% do total de chamados abertos, além da quantidade de pedidos de ajuda via chats no Microsoft Teams e que não conseguimos mensurar.
Coverage Média: Ocorre principalmente com as pessoas desenvolvedoras de menor senioridade.