Closed armgong closed 5 years ago
现在woebin 手工分箱而且变量是字符或者factor的时候, 如果数据里边的值在手工分箱breaklist中未指定 ,那么会单独分到missing 当中 这样会跟真正的缺失混淆 能否针对这种情况 做一个分箱叫做unknown ,而且最好 unkown可以跟missing合并或者不合并 也作为关键字 可以写出如下: C(99%,%missing%,%unknown)
对于类别变量,如果breaklist不指定,应该没法分箱吧。最好在特征衍生的时候对类别变量进行预处理,合并没必要的值为‘其他’,不然模型上线的时候也比较麻烦。
问题是如果没有 unkwon 这个类别的话 一旦出现新的类别值 做 woebin_ply的时候 这个值会变成Na
所以需要提前对特征进行预处理啊。不然你上线的模型不是一样会碰到这个问题么。
对类别变量手动分箱时,如果存在没被指定的值,将会报错
现在woebin 手工分箱而且变量是字符或者factor的时候, 如果数据里边的值在手工分箱breaklist中未指定 ,那么会单独分到missing 当中 这样会跟真正的缺失混淆 能否针对这种情况 做一个分箱叫做unknown ,而且最好 unkown可以跟missing合并或者不合并 也作为关键字 可以写出如下: C(99%,%missing%,%unknown)