对于您的第二个key words去偏，为什么是MASK掉文章中的关键词。

qianc62 / Corsair

Counterfactual-inference-based Text-classification Debiasing Framework.

98 stars 4 forks source link

对于您的第二个key words去偏，为什么是MASK掉文章中的关键词。 #4

Open a-home-bird opened 3 years ago

a-home-bird commented 3 years ago

按照论文思路，关键词对于文章的分类带有一定的偏置倾向，可能会影响模型对于上下文的信息抽取，那么应该在key words去偏中，保留文章中的关键词，来暴露模型对于关键词的偏置，然后在最后的去偏操作中，减去。但是文章中却是MASK掉关键词，保留上下文，对于这点内容不是很理解，希望您能够给予一定的讲解，如果您百忙之中能够回邮件，不胜感谢。

qianc62 commented 3 years ago

文章中有说过keyword其实有angle keyword和evil keyword两类，angle keyword通常是我们想去捕获的有用特征（例如“排球”这个keyword对于"运动"这个类别就是一种angle keyword），evil keyword是一类会造成偏差的混淆特征（例如“have”这个keyword对于"运动"这个类别就是一种evil keyword），本文考虑减去的是evil keyword的影响，把angle keyword的影响均保留了。

a-home-bird commented 3 years ago

麻烦问一下，代码中好像对于这个关键词没有区分，直接对jieba关键词抽取后得到的所有关键词之间MASK

qianc62 commented 3 years ago

该代码是经过测试对比后的版本，目前的这个jieba接口提取出的大部分都是想要的evil keyword（结果还比较干净）。如果你尝试其他的jieba接口会发现提取出的keyword比较混杂，这就还需进一步区分angle和evil keywords。