vrolim / datamining

0 stars 0 forks source link

readme

Datamining

Temos no nosso conjunto:

4 variáveis numéricas : 'wait','n_noshow_passed', "n_appoint_passed", "Age"
10 binarias: "Gender","Scholarship", "Hipertension","Diabetes","Alcoholism","handicap","SMS_received", 'stat_last_app_First','stat_last_app_ori',"Alvo"
2 categoricas :'Adm_Zone','week_day'

Conjunto 1 - RL_train.csv e RL_test.csv:

transformações convencionais para a regressão.

Variáveis numéricas ('wait','n_noshow_passed', "n_appoint_passed") nornalizadas. Apenas "Age" foi categorizada. Demais variáveis binárias/dummies.

Conjunto 2 - DT_RI_train1.csv e DT_RI_test1.csv:

Sem nenhuma transformação, para Árvore e Regras.

Variáveis numéricas ('wait','n_noshow_passed', "n_appoint_passed", "Age") sem normalização e categóricas('Adm_Zone','week_day) sem dummies. Demais variáveis binárias.

Conjunto 3 - DT_RI_train2.csv e DT_RI_test2.csv:

Com categorização por frequência de algumas variáveis numéricas. Outra alternativa para Árvores e Regra.

categorizadas('age_binned','n_noshow_passed_bin', 'n_appoint_passed_bin') Apenas Wait, continua numérica. Demais binarias e categoricas.

Resultados Regressao - Conjunto 1

AUC: 0,59

Variaveis importantes com significancia 5%:

wait 1.6
stat_last_app_ori 1.1
Alcoholism. 0.3
stat_last_app_First 0.3
n_noshow_passed -0.8
Hipertension -0.3
week_day_Thursda. -0.3
Adm_Zone_VI.....Continente -0.1