如何比较具有不同样本量的不同组?
How to compare different groups with different sample size?
我正在绘制来自不同学校的学生数据,以查看某些专业的男女学生人数之间的差异。我正在使用 python,我已经绘制了一些学校的数据,正如我预期的那样,男性人数确实更高,然后我意识到每所学校的学生总数不同。当样本量不同时,我的工作有意义吗?如果没有,我可以提出一些建议来进行一些更改。
这个问题不是关于编程的,而是关于统计的,但我会尽力回答。
我没有提到的重要问题:你这样做是为了什么?如果你问这样的问题 “嗯......人口中男性多于女性吗(在这种情况下,人口 = 主要计划中的所有人)?”。所以每一所学校对你来说都不重要,你可以像处理一所学校一样处理样本(但不要伪造收集它们)。
但是你可能会问:“样本中学校之间有什么区别吗?”。在这种情况下,聚集是不正确的。为此,我强烈建议为每所学校使用 stucked=True
的 barh 图。对于标准化,只需使用百分比。样本大小之间的差异不会成为问题。
请问,如果您有问题,请输入一些代码。来自样本的 3 行和一个图将非常有帮助...
现在我意识到了。
看:你有两个 classes,第一个有 2 个男人,第二个有 20 个男人。还有他们的印记。 2 名男子 - 均为 90/100。第二个20分。让它在 40 到 80 之间。如果我们说“嗯,第一个 class 使测试比第二个好得多”是否正确?当然,不是。
要解决这个问题只需要min(sizes of samples)
。如果它看起来太小,那么扔掉这个程序,因为你没有足够的数据来表达一些东西。并通过代理图例或文本放置样本的总大小,或将其添加到标题中。无论如何,它会向您展示结果的可靠性。
这个问题不是关于编程的,而是关于统计的,但我会尽力回答。
我没有提到的重要问题:你这样做是为了什么?如果你问这样的问题 “嗯......人口中男性多于女性吗(在这种情况下,人口 = 主要计划中的所有人)?”。所以每一所学校对你来说都不重要,你可以像处理一所学校一样处理样本(但不要伪造收集它们)。
但是你可能会问:“样本中学校之间有什么区别吗?”。在这种情况下,聚集是不正确的。为此,我强烈建议为每所学校使用 stucked=True
的 barh 图。对于标准化,只需使用百分比。样本大小之间的差异不会成为问题。
请问,如果您有问题,请输入一些代码。来自样本的 3 行和一个图将非常有帮助...
现在我意识到了。
看:你有两个 classes,第一个有 2 个男人,第二个有 20 个男人。还有他们的印记。 2 名男子 - 均为 90/100。第二个20分。让它在 40 到 80 之间。如果我们说“嗯,第一个 class 使测试比第二个好得多”是否正确?当然,不是。
要解决这个问题只需要min(sizes of samples)
。如果它看起来太小,那么扔掉这个程序,因为你没有足够的数据来表达一些东西。并通过代理图例或文本放置样本的总大小,或将其添加到标题中。无论如何,它会向您展示结果的可靠性。