如何表征值的分布?

How to characterize a distribution of values?

我试着用一个例子来解释它。

一所学校有 n class 人。每个classe中有k个学生,k从1到700,n和k都是已知的。

我需要一种方法来表征每个 class 学生姓名的分布。例如,在class A 中有10 个学生,其中3 个名为"John",3 个"Mark" 和3 个"Anne"。在另一个 class 中有 100 名学生,每个人都被命名为 "Anton"。

我需要一种能够指示每个 class 中名称分布的度量。例如,(这并不重要),如果 class 中的每个人都有相同的名字,则可能为 1,如果同一 class 中没有 2 个相同的名字,则可能为 0。

换句话说,一种按名称分布对 class 进行排序的方法。

听起来你想要一个“contingency table”。您希望将哪些变量作为行与列是任意的,但是 table 条目是计数或出现在类别交集中的次数的比例。

以你举的例子:

                     Class
                  A        B
              _________________
       Anne  |    3   |    0   |   3
Names  Anton |    0   |  100   | 100
       John  |    3   |    0   |   3
       Mark  |    3   |    0   |   3
    Unknown  |    1   |    0   |   1
             |--------|--------|----
                 10      100   | 110

右侧和底部的值称为 "marginal totals",或者如果比例为 "marginal distributions"。右下角是数据的总计,通过对行或列边距求和获得。 (结果最好一样!)对于比例,总和必须为 1。