Closed ryukinix closed 5 months ago
O notebook está dentro da pasta catboost_model na branch catboost. A saída do modelo está registrada no arquivo output_cancer.txt. Infelizmente, todos foram rotulados com 1 tendo câncer. Não sei se foi algum erro que cometi, mas parece-me que o código está correto.
@Oscar280578 as alterações na branch catboost_model
foram ajustadas e inseridas na branch main
, sendo assim, a branch catboost_model
foi descartada após essa operação.
Inseri mais dois notebooks na pasta LogisticRegression_model, dento da branch de mesmo nome. Um notebook usa o default de 0,5 de threshold para o modelo de regressão logística o qual rotulou 34.653 pacientes com câncer, ou seja, 10,64%. O outro usa o threshold de 80%, tendo rotulado 5.193 ou seja apenas 1,64% do dataset.
Na nossa premissa, o risco de câncer para pessoas com covid deve seguir aproximadamente a distribuição da incidência de cancer na população (menor que 1%). Ou seja, entre as pessoas com covid não deve conter alta probabilidade para risco de cancer, então deve ter mais pessoas sem risco de câncer que o contrário.
Se isso não for observado, temos um problema nos nossos estimadores e potencialmente o modelo está enviesado.
Definition of done: