qianc62 / Corsair

Counterfactual-inference-based Text-classification Debiasing Framework.
98 stars 4 forks source link

对于您的第二个key words去偏,为什么是MASK掉文章中的关键词。 #4

Open a-home-bird opened 3 years ago

a-home-bird commented 3 years ago

按照论文思路,关键词对于文章的分类带有一定的偏置倾向,可能会影响模型对于上下文的信息抽取,那么应该在key words去偏中,保留文章中的关键词,来暴露模型对于关键词的偏置,然后在最后的去偏操作中,减去。但是文章中却是MASK掉关键词,保留上下文,对于这点内容不是很理解,希望您能够给予一定的讲解,如果您百忙之中能够回邮件,不胜感谢。

qianc62 commented 3 years ago

文章中有说过keyword其实有angle keyword和evil keyword两类,angle keyword通常是我们想去捕获的有用特征(例如“排球”这个keyword对于"运动"这个类别就是一种angle keyword),evil keyword是一类会造成偏差的混淆特征(例如“have”这个keyword对于"运动"这个类别就是一种evil keyword),本文考虑减去的是evil keyword的影响,把angle keyword的影响均保留了。

a-home-bird commented 3 years ago

麻烦问一下,代码中好像对于这个关键词没有区分,直接对jieba关键词抽取后得到的所有关键词之间MASK

qianc62 commented 3 years ago

该代码是经过测试对比后的版本,目前的这个jieba接口提取出的大部分都是想要的evil keyword(结果还比较干净)。如果你尝试其他的jieba接口会发现提取出的keyword比较混杂,这就还需进一步区分angle和evil keywords。