概率:组合多个概率以达到复合
Probability: combining multiple probabilities to reach a composite
下面我包含了来自 PEW research study 的数据。将概率组合起来得出复合的方法是什么:一个 18 岁的黑人男性?
没有足够的信息来确定组合组中有多少人拥有一个单元格phone,因为我们不知道这些组是如何重叠的 .
让我们考虑一个更简单的例子:在 100 个人中,有 50 个是男人,还有 50 个喜欢奶酪。喜欢奶酪的男人有多少?
显然我们没有足够的信息,因为从 none 到所有的男人都可能喜欢奶酪。
相同的概念适用于单元格 phone 数据,而且甚至很难得出可能性的范围。
例如,考虑有多少西班牙裔男性拥有手机phone。应该在95%到98%之间吧?错误的!想象一下,调查中有 10k 名男性,990 名西班牙裔女性,但只有 10 名西班牙裔男性。我们可以有 9500 non-hispanic 名男性、980 名西班牙裔女性和 0 名拥有牢房的西班牙裔男性 phone - 给我们 0% 的西班牙裔男性拥有一个牢房 phone。或者通过类似的推理,我们可以构建一个案例,其中 100% 的西班牙裔男性拥有一个小区 phone.
但是,如果我们有关于每个组中有多少人接受调查的确切数据,您可能会得出一些小于 0-100% 的可能范围。例如,在喜欢奶酪的男人中,如果 60 个人是男人,那么我们可以说至少有 10 人必须喜欢奶酪。
正如 Imran 所指出的,无法从可用的有限数据中推断出答案。如果你愿意做一个简化的假设,你就能取得进步。但请注意,这个假设是否成立,只能通过更详细的数据来回答。
我们开始吧。 OP 要求 P(cell phone|age, race, gender)。根据贝叶斯规则,这是:
P(cell phone|age, race, gender)
= P(age, race, gender, cell phone) / P(age, race, gender)
= P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)
简化假设是年龄、种族和性别在给定细胞 phone 状态时是独立的。同样,可用数据无法回答这是否有效。假设,我们有:
P(age, race, gender|cell phone)
= P(age|cell phone) P(race|cell phone) P(gender|cell phone)
现在对每一项应用贝叶斯规则:
P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)
此时我们有:
P(age, race, gender, cell phone)
= P(cell phone|age) P(cell phone|race) P(cell phone|gender)
P(age) P(race) P(gender) / P(cell phone)^2
令 P1 = P(年龄、种族、性别、单元格 phone) 和 P0 = P(年龄、种族、性别、无单元格 phone)。则P(年龄、种族、性别) = P1 + P0, 且
P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)
现在,很高兴,一些条款取消了:
P0/P1 = foo/bar
与
foo = P(no cell phone|age) P(no cell phone|race) P(no cell phone|gender) / P(no cell phone)^2
bar = P(cell phone|age) P(cell phone|race) P(cell phone|gender) / P(cell phone)^2
一些例子:
P(cell phone|age = 18-29, race=black, gender=male)
= 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
= 1
P(cell phone|age = 30-49, race=black, gender=male)
= 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
= 0.992
P(cell phone|age = 65+, race=white, gender=female)
= 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
= 0.794
所以,有一些结果。同样,请记住,这些结果取决于只能用更多数据验证的假设。
下面我包含了来自 PEW research study 的数据。将概率组合起来得出复合的方法是什么:一个 18 岁的黑人男性?
没有足够的信息来确定组合组中有多少人拥有一个单元格phone,因为我们不知道这些组是如何重叠的 .
让我们考虑一个更简单的例子:在 100 个人中,有 50 个是男人,还有 50 个喜欢奶酪。喜欢奶酪的男人有多少?
显然我们没有足够的信息,因为从 none 到所有的男人都可能喜欢奶酪。
相同的概念适用于单元格 phone 数据,而且甚至很难得出可能性的范围。
例如,考虑有多少西班牙裔男性拥有手机phone。应该在95%到98%之间吧?错误的!想象一下,调查中有 10k 名男性,990 名西班牙裔女性,但只有 10 名西班牙裔男性。我们可以有 9500 non-hispanic 名男性、980 名西班牙裔女性和 0 名拥有牢房的西班牙裔男性 phone - 给我们 0% 的西班牙裔男性拥有一个牢房 phone。或者通过类似的推理,我们可以构建一个案例,其中 100% 的西班牙裔男性拥有一个小区 phone.
但是,如果我们有关于每个组中有多少人接受调查的确切数据,您可能会得出一些小于 0-100% 的可能范围。例如,在喜欢奶酪的男人中,如果 60 个人是男人,那么我们可以说至少有 10 人必须喜欢奶酪。
正如 Imran 所指出的,无法从可用的有限数据中推断出答案。如果你愿意做一个简化的假设,你就能取得进步。但请注意,这个假设是否成立,只能通过更详细的数据来回答。
我们开始吧。 OP 要求 P(cell phone|age, race, gender)。根据贝叶斯规则,这是:
P(cell phone|age, race, gender)
= P(age, race, gender, cell phone) / P(age, race, gender)
= P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)
简化假设是年龄、种族和性别在给定细胞 phone 状态时是独立的。同样,可用数据无法回答这是否有效。假设,我们有:
P(age, race, gender|cell phone)
= P(age|cell phone) P(race|cell phone) P(gender|cell phone)
现在对每一项应用贝叶斯规则:
P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)
此时我们有:
P(age, race, gender, cell phone)
= P(cell phone|age) P(cell phone|race) P(cell phone|gender)
P(age) P(race) P(gender) / P(cell phone)^2
令 P1 = P(年龄、种族、性别、单元格 phone) 和 P0 = P(年龄、种族、性别、无单元格 phone)。则P(年龄、种族、性别) = P1 + P0, 且
P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)
现在,很高兴,一些条款取消了:
P0/P1 = foo/bar
与
foo = P(no cell phone|age) P(no cell phone|race) P(no cell phone|gender) / P(no cell phone)^2
bar = P(cell phone|age) P(cell phone|race) P(cell phone|gender) / P(cell phone)^2
一些例子:
P(cell phone|age = 18-29, race=black, gender=male)
= 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
= 1
P(cell phone|age = 30-49, race=black, gender=male)
= 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
= 0.992
P(cell phone|age = 65+, race=white, gender=female)
= 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
= 0.794
所以,有一些结果。同样,请记住,这些结果取决于只能用更多数据验证的假设。