dgliu / KDD23_EFIN

Experiments codes for SIGKDD '23 paper "Explicit Feature Interaction-aware Uplift Network for Online Marketing"
GNU General Public License v3.0
20 stars 4 forks source link

关于loss为何使用mse有点不理解 #2

Closed Wang-yaole closed 2 weeks ago

Wang-yaole commented 2 weeks ago

明明label都是binary的,为啥loss是拿logit去算mse啊,我看euen的代码也是这样,糊涂的很

dgliu commented 2 weeks ago

明明label都是binary的,为啥loss是拿logit去算mse啊,我看euen的代码也是这样,糊涂的很

感谢你对我们工作的关注。

虽然label是binary的通常会想到用BCE,但是这并不是强制性的。换句话说,尽管我们采用了MSE,但是你也可以在你的实验中使用BCE。 根据我们的经验,在binary label的uplift modeling场景中,使用BCE很容易让模型训练出现崩塌,因此我们最后采用了MSE。你可以在uplift modeling的基准数据集进行尝试和比较。

Wang-yaole commented 2 weeks ago

明明label都是binary的,为啥loss是拿logit去算mse啊,我看euen的代码也是这样,糊涂的很

感谢你对我们工作的关注。

虽然label是binary的通常会想到用BCE,但是这并不是强制性的。换句话说,尽管我们采用了MSE,但是你也可以在你的实验中使用BCE。 根据我们的经验,在binary label的uplift modeling场景中,使用BCE很容易让模型训练出现崩塌,因此我们最后采用了MSE。你可以在uplift modeling的基准数据集进行尝试和比较。

噢噢 我明白了,我今天找半天理由,差点说服自己因为建模Y=\mu+\tau+\epsilon 是个求和 所以loss只能mse,看来是应该都做做实验。 崩塌的意思是loss变nan嘛,还是震荡不收敛?

dgliu commented 2 weeks ago

明明label都是binary的,为啥loss是拿logit去算mse啊,我看euen的代码也是这样,糊涂的很

感谢你对我们工作的关注。 虽然label是binary的通常会想到用BCE,但是这并不是强制性的。换句话说,尽管我们采用了MSE,但是你也可以在你的实验中使用BCE。 根据我们的经验,在binary label的uplift modeling场景中,使用BCE很容易让模型训练出现崩塌,因此我们最后采用了MSE。你可以在uplift modeling的基准数据集进行尝试和比较。

噢噢 我明白了,我今天找半天理由,差点说服自己因为建模Y=\mu+\tau+\epsilon 是个求和 所以loss只能mse,看来是应该都做做实验。 崩塌的意思是loss变nan嘛,还是震荡不收敛?

都可能会出现,后者可能比较多原因是loss层面上;由于uplift modeling模型的强参数敏感性,前者即使在MSE中也会由于一些不当的参数值而遇到。

Wang-yaole commented 2 weeks ago

感谢答复!我还看到了你的Benchmarking for Deep Uplift Modeling in Online Marketing,兄弟论文写的是真体面

dgliu commented 2 weeks ago

感谢答复!我还看到了你的Benchmarking for Deep Uplift Modeling in Online Marketing,兄弟论文写的是真体面

如果有其他的问题,可以随时邮件与我联系,或者通过邮件告知我微信进行添加,祝好!