1、双方数据的样本 ID 对齐模块;联邦学习框架下样本 id 匹配是指,双方获取样本中共同的 id,同时不向对方透漏各自独有的样本 id。同态加密下求交集。
2、特征分析及特征选择;联邦学习情形下特征选择是处理 A(平台方) 没有 Y 的情况下,如何选择 A,B 中有效的特征。B (大客户)把每个样本的 y 和 1-y 用同态加密Encry后发给A;A分别计算分箱中所有样本的 Encry(y)和 Encry(1-y)之和,然后发到 B 进行解密;B 计算此这种分箱情况下特征的 IV 值。与 B 中所有特征的 IV 值进行比较,进行特征选择,返回需要特征字段给 A;
3、模型改造,以逻辑回归为例:将损失函数进行泰勒展开,参与方A、B能够尽量地进行单独的计算,再通过加密信息的交互获得各自的梯度计算结果。
最近接触了个联邦学习的项目,想到scorecardpy可以在这方面进行一下升级改造:通过联邦学习的机制,基于多方数据构建信用评分卡;主要涉及以下几个改造模块:
1、双方数据的样本 ID 对齐模块;联邦学习框架下样本 id 匹配是指,双方获取样本中共同的 id,同时不向对方透漏各自独有的样本 id。同态加密下求交集。 2、特征分析及特征选择;联邦学习情形下特征选择是处理 A(平台方) 没有 Y 的情况下,如何选择 A,B 中有效的特征。B (大客户)把每个样本的 y 和 1-y 用同态加密Encry后发给A;A分别计算分箱中所有样本的 Encry(y)和 Encry(1-y)之和,然后发到 B 进行解密;B 计算此这种分箱情况下特征的 IV 值。与 B 中所有特征的 IV 值进行比较,进行特征选择,返回需要特征字段给 A; 3、模型改造,以逻辑回归为例:将损失函数进行泰勒展开,参与方A、B能够尽量地进行单独的计算,再通过加密信息的交互获得各自的梯度计算结果。