Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor

最近 arxiv 上出现了一篇很有意思的论文，是讨论 word2vec 里面的 bias 的。

word2vec 有一个很著名的结果，就是：

man : king :: woman : queen

就是说man跟king之间的关系就像woman跟queen之间的关系一样（在 embedding space 中的向量是相近的）。但是同时这个也有一个“臭名昭著”的结果，就是

man : doctor :: woman : nurse

最近 University of Groningen 的 Malvina Nissim， Rik van Noord 三个人发了一篇文章讨论为什么会出现这个 bias。原因是原来的 word2vec 算法里面加了一个限制条件，就是关系对应里面的词是不能重复或者太相近的。例如

man : king :: woman : king

是不能出现的，同样

man : doctor :: woman : doctor

也是不可能出现的。所以这个问题就很有意思的，社会的偏见固然是存在的，但是如果在算法中强行提取这种偏见，那就有点不公平了。论文里面有一些例子来展示这种偏见：

Screen Shot 2019-06-30 at 10 58 05

比如

man : computer_programmer :: woman ?

的时候，如果不进行限制，第一个结果其实 computer_programmer，但是算法要求选一个不同的词，这时候就选了 homemaker。

当然了，如果不加限制，算法的准确度就很差了。不过这篇论文的 take home message 是：

如果我们不能确定我们的算法能够正确地反映偏见，那么我们就不应该拿这个算法的结果来讨论偏见。引用原文的一句话：

How can we claim the model is biased because it does not return doctor if the model is simply not allowed to return doctor?

参考：

data-com / discussions