data-com / discussions

http://data-com.github.io
5 stars 0 forks source link

Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor #24

Open emptymalei opened 5 years ago

emptymalei commented 5 years ago

最近 arxiv 上出现了一篇很有意思的论文,是讨论 word2vec 里面的 bias 的。

word2vec 有一个很著名的结果,就是:

man : king :: woman : queen 

就是说manking之间的关系就像womanqueen之间的关系一样(在 embedding space 中的向量是相近的)。 但是同时这个也有一个“臭名昭著”的结果,就是

man : doctor :: woman : nurse

最近 University of Groningen 的 Malvina Nissim, Rik van Noord 三个人发了一篇文章讨论为什么会出现这个 bias。原因是原来的 word2vec 算法里面加了一个限制条件,就是关系对应里面的词是不能重复或者太相近的。例如

man : king :: woman : king 

是不能出现的,同样

man : doctor :: woman : doctor

也是不可能出现的。所以这个问题就很有意思的,社会的偏见固然是存在的,但是如果在算法中强行提取这种偏见,那就有点不公平了。论文里面有一些例子来展示这种偏见:

Screen Shot 2019-06-30 at 10 58 05

比如

man : computer_programmer :: woman ?

的时候,如果不进行限制,第一个结果其实 computer_programmer,但是算法要求选一个不同的词,这时候就选了 homemaker

当然了,如果不加限制,算法的准确度就很差了。不过这篇论文的 take home message 是:

如果我们不能确定我们的算法能够正确地反映偏见,那么我们就不应该拿这个算法的结果来讨论偏见。引用原文的一句话:

How can we claim the model is biased because it does not return doctor if the model is simply not allowed to return doctor?

参考:

  1. Nissim, M., van Noord, R., & van der Goot, R. (2019). Fair is Better than Sensational:Man is to Doctor as Woman is to Doctor.
emptymalei commented 5 years ago

published in https://github.com/data-com/weekly/issues/11