如何表征值的分布?
How to characterize a distribution of values?
我试着用一个例子来解释它。
一所学校有 n class 人。每个classe中有k个学生,k从1到700,n和k都是已知的。
我需要一种方法来表征每个 class 学生姓名的分布。例如,在class A 中有10 个学生,其中3 个名为"John",3 个"Mark" 和3 个"Anne"。在另一个 class 中有 100 名学生,每个人都被命名为 "Anton"。
我需要一种能够指示每个 class 中名称分布的度量。例如,(这并不重要),如果 class 中的每个人都有相同的名字,则可能为 1,如果同一 class 中没有 2 个相同的名字,则可能为 0。
换句话说,一种按名称分布对 class 进行排序的方法。
听起来你想要一个“contingency table”。您希望将哪些变量作为行与列是任意的,但是 table 条目是计数或出现在类别交集中的次数的比例。
以你举的例子:
Class
A B
_________________
Anne | 3 | 0 | 3
Names Anton | 0 | 100 | 100
John | 3 | 0 | 3
Mark | 3 | 0 | 3
Unknown | 1 | 0 | 1
|--------|--------|----
10 100 | 110
右侧和底部的值称为 "marginal totals",或者如果比例为 "marginal distributions"。右下角是数据的总计,通过对行或列边距求和获得。 (结果最好一样!)对于比例,总和必须为 1。
我试着用一个例子来解释它。
一所学校有 n class 人。每个classe中有k个学生,k从1到700,n和k都是已知的。
我需要一种方法来表征每个 class 学生姓名的分布。例如,在class A 中有10 个学生,其中3 个名为"John",3 个"Mark" 和3 个"Anne"。在另一个 class 中有 100 名学生,每个人都被命名为 "Anton"。
我需要一种能够指示每个 class 中名称分布的度量。例如,(这并不重要),如果 class 中的每个人都有相同的名字,则可能为 1,如果同一 class 中没有 2 个相同的名字,则可能为 0。
换句话说,一种按名称分布对 class 进行排序的方法。
听起来你想要一个“contingency table”。您希望将哪些变量作为行与列是任意的,但是 table 条目是计数或出现在类别交集中的次数的比例。
以你举的例子:
Class
A B
_________________
Anne | 3 | 0 | 3
Names Anton | 0 | 100 | 100
John | 3 | 0 | 3
Mark | 3 | 0 | 3
Unknown | 1 | 0 | 1
|--------|--------|----
10 100 | 110
右侧和底部的值称为 "marginal totals",或者如果比例为 "marginal distributions"。右下角是数据的总计,通过对行或列边距求和获得。 (结果最好一样!)对于比例,总和必须为 1。