是否可以指定两个分布之间的相关性?
Is it possible to specify the correlation between two distributions?
对于上下文,假设进行了两次学术考试——上午和下午。我只得到了汇总统计数据——两次考试分数的平均值、中位数、偏度和峰度,所以我无法确切地说出有多少学生通过了考试,但我可以通过拟合时刻和创建自定义来估计它皮尔逊分布。例如,我可以估计有多少学生通过了第一次和第二次考试,以及给它一个标准差来量化我的错误。
我想做的是估计通过课程的学生人数,定义为上午和下午考试的平均分数都超过 60%。如果学生在两次测试中的表现完全独立,我想这会很容易——我只是以两个列表的形式生成两次测试的分数,对它们进行平均,计算超过 60% 的项目数量,然后重复,比如 10000次。
如果两个测试完全相关,我想我将不得不对两个列表进行排序,因为在早上考试中得分最高的学生在第二次考试中也应该得分最高。我缺少的是我应该如何衡量 randomness/interdependence 的程度(也许它与熵有关?)在两者之间,在考试 1 中得分高的学生在考试 2 中也得分高,如果有是 R 中的一个包,我可以用它来指定两个变量之间的任意程度的熵。
测量两个分布之间熵的著名概念是KL divergence:
In mathematical statistics, the Kullback–Leibler divergence (also called relative entropy) is a measure of how one probability distribution is different from a second, reference probability distribution.
要使度量对称,您也可以使用 Jensen-Shannon divergence。
KL散度的实现,可以在R中使用this package
KL 散度的一个特例是 mutual information,它可以更好地衡量相互依赖性,这正是您要寻找的。互信息不是计算参考分布的散度,而是基本上等于联合概率与边际概率分布的乘积之间的 KL-散度。互信息也等于每个边缘分布的熵减去它们的联合熵的总和,这意味着你可以先估计个体和联合的熵,然后把它们加在一起估计互信息。
这是 R 的互信息的一种实现,尽管已经引入了许多其他估计器:
对于上下文,假设进行了两次学术考试——上午和下午。我只得到了汇总统计数据——两次考试分数的平均值、中位数、偏度和峰度,所以我无法确切地说出有多少学生通过了考试,但我可以通过拟合时刻和创建自定义来估计它皮尔逊分布。例如,我可以估计有多少学生通过了第一次和第二次考试,以及给它一个标准差来量化我的错误。
我想做的是估计通过课程的学生人数,定义为上午和下午考试的平均分数都超过 60%。如果学生在两次测试中的表现完全独立,我想这会很容易——我只是以两个列表的形式生成两次测试的分数,对它们进行平均,计算超过 60% 的项目数量,然后重复,比如 10000次。
如果两个测试完全相关,我想我将不得不对两个列表进行排序,因为在早上考试中得分最高的学生在第二次考试中也应该得分最高。我缺少的是我应该如何衡量 randomness/interdependence 的程度(也许它与熵有关?)在两者之间,在考试 1 中得分高的学生在考试 2 中也得分高,如果有是 R 中的一个包,我可以用它来指定两个变量之间的任意程度的熵。
测量两个分布之间熵的著名概念是KL divergence:
In mathematical statistics, the Kullback–Leibler divergence (also called relative entropy) is a measure of how one probability distribution is different from a second, reference probability distribution.
要使度量对称,您也可以使用 Jensen-Shannon divergence。
KL散度的实现,可以在R中使用this package
KL 散度的一个特例是 mutual information,它可以更好地衡量相互依赖性,这正是您要寻找的。互信息不是计算参考分布的散度,而是基本上等于联合概率与边际概率分布的乘积之间的 KL-散度。互信息也等于每个边缘分布的熵减去它们的联合熵的总和,这意味着你可以先估计个体和联合的熵,然后把它们加在一起估计互信息。
这是 R 的互信息的一种实现,尽管已经引入了许多其他估计器: