如何使用词向量进行测量

How to measure using word vectors

我正在尝试了解如何使用词嵌入来衡量偏见。阅读文章https://towardsdatascience.com/gender-bias-word-embeddings-76d9806a0e17

上述陈述中确定的偏见是什么?这里的偏见是不是当男人参与时,女人就不能被视为医生?

被识别为男性或女性的中性偏见是女性、医生男性、医生之间存在微小差异的地方,代表一个向量:$woman + doctor \approx man + doctor$ ?

你会期望

woman + doctor = man + doctor

或重写:

woman + doctor - man = doctor

但由于 'nurse' 嵌入了 space,这表明医疗保健领域的女性被视为护士存在偏见。 在训练嵌入的语料库中,医生与男性的关联更多,因此可以得出结论,语料库(和学习到的词嵌入)存在性别偏见。