代表性样本量计算。

Question

我想手动分析三个大型软件项目的错误报告。三个项目的错误报告总数分别为 10,000、12,000 和 8000。我需要检查错误报告、评论和错误修复文件。手动分析所有错误报告是一项耗时且艰巨的任务。出于这些原因，我想从每个项目中获取错误报告的样本。您能否建议我应该分析每个项目的错误报告数量以形成具有代表性的样本量。

Answer 1

这取决于以下两点：

信心水平： 它告诉您您有多确定。 95% 的置信水平意味着您可以 95% 确定； 99% 的置信水平意味着您可以 99% 确定。大多数研究人员使用 95% 的置信水平。

Confidence interval (margin of error): 与实际结果有可接受偏差的正负值。大多数研究人员使用 5% 的置信区间。

因此，您可以使用 95% 的置信水平和 5% 的置信区间来生成样本量。

例如，

The population size of project A=10,000
Confidence Level = 95%
Confidence Interval =5%
So, representative sample size=370 (That means you should analyze 370 bug reports for project A)

我通常使用样本量计算器来计算样本量。 (https://www.surveysystem.com/sscalc.htm#one)

代表性样本量计算。

Representative sample size calculation.

random

open-source