ShichenXie / scorecard

Scorecard Development in R, 评分卡
http://shichen.name/scorecard
Other
160 stars 63 forks source link

能否增加unkown的分箱 #19

Closed armgong closed 5 years ago

armgong commented 5 years ago

现在woebin 手工分箱而且变量是字符或者factor的时候, 如果数据里边的值在手工分箱breaklist中未指定 ,那么会单独分到missing 当中 这样会跟真正的缺失混淆 能否针对这种情况 做一个分箱叫做unknown ,而且最好 unkown可以跟missing合并或者不合并 也作为关键字 可以写出如下: C(99%,%missing%,%unknown)

ShichenXie commented 5 years ago

对于类别变量,如果breaklist不指定,应该没法分箱吧。最好在特征衍生的时候对类别变量进行预处理,合并没必要的值为‘其他’,不然模型上线的时候也比较麻烦。

armgong commented 5 years ago

问题是如果没有 unkwon 这个类别的话 一旦出现新的类别值 做 woebin_ply的时候 这个值会变成Na

ShichenXie commented 5 years ago

所以需要提前对特征进行预处理啊。不然你上线的模型不是一样会碰到这个问题么。

ShichenXie commented 5 years ago

对类别变量手动分箱时,如果存在没被指定的值,将会报错