cancer-estimator / model

Model Search Repository
0 stars 0 forks source link

Treinar com dados rotulados e estimar distribuição de rotulos no dataset de covid #24

Closed ryukinix closed 5 months ago

ryukinix commented 6 months ago

Na nossa premissa, o risco de câncer para pessoas com covid deve seguir aproximadamente a distribuição da incidência de cancer na população (menor que 1%). Ou seja, entre as pessoas com covid não deve conter alta probabilidade para risco de cancer, então deve ter mais pessoas sem risco de câncer que o contrário.

Se isso não for observado, temos um problema nos nossos estimadores e potencialmente o modelo está enviesado.

Definition of done:

Oscar280578 commented 5 months ago

O notebook está dentro da pasta catboost_model na branch catboost. A saída do modelo está registrada no arquivo output_cancer.txt. Infelizmente, todos foram rotulados com 1 tendo câncer. Não sei se foi algum erro que cometi, mas parece-me que o código está correto.

ryukinix commented 5 months ago

@Oscar280578 as alterações na branch catboost_model foram ajustadas e inseridas na branch main, sendo assim, a branch catboost_model foi descartada após essa operação.

Oscar280578 commented 5 months ago

Inseri mais dois notebooks na pasta LogisticRegression_model, dento da branch de mesmo nome. Um notebook usa o default de 0,5 de threshold para o modelo de regressão logística o qual rotulou 34.653 pacientes com câncer, ou seja, 10,64%. O outro usa o threshold de 80%, tendo rotulado 5.193 ou seja apenas 1,64% do dataset.