如何表征值的分布？

Question

我试着用一个例子来解释它。

一所学校有 n class 人。每个classe中有k个学生，k从1到700，n和k都是已知的。

我需要一种方法来表征每个 class 学生姓名的分布。例如，在class A 中有10 个学生，其中3 个名为"John"，3 个"Mark" 和3 个"Anne"。在另一个 class 中有 100 名学生，每个人都被命名为 "Anton"。

我需要一种能够指示每个 class 中名称分布的度量。例如，（这并不重要），如果 class 中的每个人都有相同的名字，则可能为 1，如果同一 class 中没有 2 个相同的名字，则可能为 0。

换句话说，一种按名称分布对 class 进行排序的方法。

Answer 1

听起来你想要一个“contingency table”。您希望将哪些变量作为行与列是任意的，但是 table 条目是计数或出现在类别交集中的次数的比例。

以你举的例子：

                     Class
                  A        B
              _________________
       Anne  |    3   |    0   |   3
Names  Anton |    0   |  100   | 100
       John  |    3   |    0   |   3
       Mark  |    3   |    0   |   3
    Unknown  |    1   |    0   |   1
             |--------|--------|----
                 10      100   | 110

右侧和底部的值称为 "marginal totals"，或者如果比例为 "marginal distributions"。右下角是数据的总计，通过对行或列边距求和获得。（结果最好一样！）对于比例，总和必须为 1。

如何表征值的分布？

How to characterize a distribution of values?

statistics

distribution

data-analysis