Closed ryukinix closed 6 months ago
A métrica P@k (Precision at k) é frequentemente utilizada em problemas de classificação de risco para avaliar a precisão dos modelos. Ela mede a proporção de exemplos corretamente classificados dentro dos primeiros k resultados. Por exemplo, se estivermos classificando riscos de crédito, podemos calcular a P@k para verificar quantas das k principais previsões do modelo foram realmente riscos reais. Isso ajuda a entender a eficácia do modelo em identificar os riscos mais significativos.
Nesse contexto, o objetivo seria avaliar a capacidade do modelo em identificar corretamente os casos de alto risco de câncer de pulmão entre os k primeiros resultados classificados pelo modelo. Por exemplo, se aplicarmos a métrica P@5, estaríamos avaliando quantos dos cinco casos de maior risco previstos pelo modelo realmente são casos de câncer de pulmão confirmados por exames adicionais. Isso fornece uma medida direta da eficácia do modelo em identificar os casos mais críticos, permitindo uma avaliação mais precisa de seu desempenho em situações clínicas reais.
No nosso caso, pra avaliar a qualidade do estimador de risco, o professor propôs usar uma regressão para podermos estimar o valor resposta entre [0,1] como se fosse um problema de ranqueamento, para que os primeiros k registros seja calculado a métrica p@k baseado nos rótulos disponíveis no teste.
Avaliar como utilizar essa métrica pode afetar o nosso processo de validação de modelos, que estima a métrica de performance esperada no mundo real.
referência: https://en.wikipedia.org/wiki/Evaluation_measures_(information_retrieval)#Precision_at_k