Open emptymalei opened 5 years ago
最近 arxiv 上出现了一篇很有意思的论文,是讨论 word2vec 里面的 bias 的。
word2vec 有一个很著名的结果,就是:
man : king :: woman : queen
就是说man跟king之间的关系就像woman跟queen之间的关系一样(在 embedding space 中的向量是相近的)。 但是同时这个也有一个“臭名昭著”的结果,就是
man
king
woman
queen
man : doctor :: woman : nurse
最近 University of Groningen 的 Malvina Nissim, Rik van Noord 三个人发了一篇文章讨论为什么会出现这个 bias。原因是原来的 word2vec 算法里面加了一个限制条件,就是关系对应里面的词是不能重复或者太相近的。例如
man : king :: woman : king
是不能出现的,同样
man : doctor :: woman : doctor
也是不可能出现的。所以这个问题就很有意思的,社会的偏见固然是存在的,但是如果在算法中强行提取这种偏见,那就有点不公平了。论文里面有一些例子来展示这种偏见:
比如
man : computer_programmer :: woman ?
的时候,如果不进行限制,第一个结果其实 computer_programmer,但是算法要求选一个不同的词,这时候就选了 homemaker。
computer_programmer
homemaker
当然了,如果不加限制,算法的准确度就很差了。不过这篇论文的 take home message 是:
如果我们不能确定我们的算法能够正确地反映偏见,那么我们就不应该拿这个算法的结果来讨论偏见。引用原文的一句话:
How can we claim the model is biased because it does not return doctor if the model is simply not allowed to return doctor?
参考:
published in https://github.com/data-com/weekly/issues/11
最近 arxiv 上出现了一篇很有意思的论文,是讨论 word2vec 里面的 bias 的。
word2vec 有一个很著名的结果,就是:
就是说
man
跟king
之间的关系就像woman
跟queen
之间的关系一样(在 embedding space 中的向量是相近的)。 但是同时这个也有一个“臭名昭著”的结果,就是最近 University of Groningen 的 Malvina Nissim, Rik van Noord 三个人发了一篇文章讨论为什么会出现这个 bias。原因是原来的 word2vec 算法里面加了一个限制条件,就是关系对应里面的词是不能重复或者太相近的。例如
是不能出现的,同样
也是不可能出现的。所以这个问题就很有意思的,社会的偏见固然是存在的,但是如果在算法中强行提取这种偏见,那就有点不公平了。论文里面有一些例子来展示这种偏见:
比如
的时候,如果不进行限制,第一个结果其实
computer_programmer
,但是算法要求选一个不同的词,这时候就选了homemaker
。当然了,如果不加限制,算法的准确度就很差了。不过这篇论文的 take home message 是:
如果我们不能确定我们的算法能够正确地反映偏见,那么我们就不应该拿这个算法的结果来讨论偏见。引用原文的一句话:
参考: