根据人口统计数据对用户进行分类

Classify users based on demographics

我正在做一个个人项目只是为了好玩。基本上我收集了每个国家的人口统计信息的数据,例如:

德国 74% 男性 26% 女性 10% 已婚 16% Age_30-35 40% 等

现在我想做的是当我得到一个新用户时,我会看到该用户所在的国家/地区并尝试预测有关该用户的信息,即该用户是否是已婚且年龄在 30-35 岁之间的男性(只是一个例子)。

我的问题是如何做出这样的预测,我不能只制定一个规则说如果一个国家有超过 50% 的男性,那么这个国家的新用户也是男性。基本上我想知道如何确定可以帮助我确定地预测用户人口统计数据的值。

这不是一个真正的预测,而是一个概率问题,因为如果您有描述的值,您可以计算所有概率。

举个例子:

Male population = 74%
People married = 16% 
People between 30-35 = 40%

要获得新的德国用户是男性、已婚且年龄在 30-35 岁之间的概率,您可以执行以下操作:

P(Male|Married|30-35) = p(Male) * p(Married) * p(30-35)
P(Male|Married|30-35) = 0,74 * 0,16 * 0,40 = 0,04736 ~ 4,7%

你不需要更多来计算这个。但是,如果您想自动对所有用户进行分类,我建议您看一下 Naive Bayes Classification.