性别检测算法如何工作?

How does a gender detection algorithm work?

性别检测算法如何检测姓名的性别。例如,在以下网站上:

  1. http://genderchecker.com/
  2. https://gender-api.com/
  3. https://genderize.io/
  4. http://www.genderguesser.com/

我对如何实现他们的 API 或数据不感兴趣,但对算法的工作原理感兴趣。他们如何根据文本字符串(名字)分析、计算、估计性别,此外,他们如何确定该名字的来源国和他们猜测的概率?

这实际上很简单,因为他们有一个包含姓名及其相关性别的数据库 - 我认为没有任何方法可以计算任何给定姓名的性别。如果您查看您提供的第一个 link,它会显示 "Global names currently in the database: 102,142"。当您输入名称时,它实际上会根据其数据库检查您输入的内容并为您提供结果。

我只是碰巧点击了你的一个链接,首先加载的是它们明确说明了算法...

To guess the gender of a name we carry out a web search. We look up queries like “Mr [name]”, “Mrs [name]” or “[name] and his wife”, “[name] and her husband” and compare the number of hits to decide whether the name is a male or a female name.

其他的我肯定是相似的。如果你有 500,000 个人叫 Sam,其中 250,000 人是男性,250,000 人是女性,那么 Sam 有 50% 的可能性是男性,50% 的可能性是 Sam 是女性。