概率:组合多个概率以达到复合

Probability: combining multiple probabilities to reach a composite

下面我包含了来自 PEW research study 的数据。将概率组合起来得出复合的方法是什么:一个 18 岁的黑人男性?

没有足够的信息来确定组合组中有多少人拥有一个单元格phone,因为我们不知道这些组是如何重叠的 .

让我们考虑一个更简单的例子:在 100 个人中,有 50 个是男人,还有 50 个喜欢奶酪。喜欢奶酪的男人有多少?

显然我们没有足够的信息,因为从 none 到所有的男人都可能喜欢奶酪。

相同的概念适用于单元格 phone 数据,而且甚至很难得出可能性的范围。

例如,考虑有多少西班牙裔男性拥有手机phone。应该在95%到98%之间吧?错误的!想象一下,调查中有 10k 名男性,990 名西班牙裔女性,但只有 10 名西班牙裔男性。我们可以有 9500 non-hispanic 名男性、980 名西班牙裔女性和 0 名拥有牢房的西班牙裔男性 phone - 给我们 0% 的西班牙裔男性拥有一个牢房 phone。或者通过类似的推理,我们可以构建一个案例,其中 100% 的西班牙裔男性拥有一个小区 phone.

但是,如果我们有关于每个组中有多少人接受调查的确切数据,您可能会得出一些小于 0-100% 的可能范围。例如,在喜欢奶酪的男人中,如果 60 个人是男人,那么我们可以说至少有 10 人必须喜欢奶酪。

正如 Imran 所指出的,无法从可用的有限数据中推断出答案。如果你愿意做一个简化的假设,你就能取得进步。但请注意,这个假设是否成立,只能通过更详细的数据来回答。

我们开始吧。 OP 要求 P(cell phone|age, race, gender)。根据贝叶斯规则,这是:

P(cell phone|age, race, gender)
  = P(age, race, gender, cell phone) / P(age, race, gender)
  = P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)

简化假设是年龄、种族和性别在给定细胞 phone 状态时是独立的。同样,可用数据无法回答这是否有效。假设,我们有:

P(age, race, gender|cell phone)
  = P(age|cell phone) P(race|cell phone) P(gender|cell phone)

现在对每一项应用贝叶斯规则:

P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)

此时我们有:

P(age, race, gender, cell phone)
  = P(cell phone|age) P(cell phone|race) P(cell phone|gender)
    P(age) P(race) P(gender) / P(cell phone)^2

令 P1 = P(年龄、种族、性别、单元格 phone) 和 P0 = P(年龄、种族、性别、无单元格 phone)。则P(年龄、种族、性别) = P1 + P0, 且

P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)

现在,很高兴,一些条款取消了:​​

P0/P1 = foo/bar

foo = P(no cell phone|age) P(no cell phone|race) P(no cell phone|gender) / P(no cell phone)^2
bar = P(cell phone|age) P(cell phone|race) P(cell phone|gender) / P(cell phone)^2

一些例子:

P(cell phone|age = 18-29, race=black, gender=male)
  = 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
  = 1

P(cell phone|age = 30-49, race=black, gender=male)
  = 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
  = 0.992

P(cell phone|age = 65+, race=white, gender=female)
  = 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
  = 0.794

所以,有一些结果。同样,请记住,这些结果取决于只能用更多数据验证的假设。