使用先前的一组值分析值时要考虑的统计数据
Statistic to consider while analysing a value with previous set of values
我正在尝试寻找一种好的统计方法来比较给定值与一组现有值。目前我正在考虑现有数字的平均值并将其与给定值进行比较。如果该值偏离平均值的 50%,那么我会说它偏离了流量。我正在使用 python 编程语言进行所有计算。还有其他更有效的方法吗?
例如:1,4,7,0,0,0 是当前存在的值。
我得到这些的平均值:2
如果给定的值是10,我会说它不对。
有没有更高效的方法?
据我了解,您需要某种集中趋势度量。一共有三个:平均数、中位数和众数。您要使用哪一个取决于您的目标和优先级。意思很通俗易懂。它有很多有用的统计特性。但是,它受异常值的影响。另一方面,众数和中位数不受异常值的影响,但它们的统计用途较少。此外,在中位数和均值的情况下,您计算的值可能实际上不在您的数据集中,而模式会。
这些考虑因素中的哪一个对您很重要?
但即使在您选择了您喜欢的集中趋势度量之后,您将如何确定什么时候 "too far" 不在集合中?在你的问题中,你只是按百分比来做,但这可能不是最好的方法。
对于大多数问题,我可能会使用均值作为集中趋势的度量,并使用标准差作为统计量来确定一个数字是否 "off the mark." 但其他方法可能更适合您。
我正在尝试寻找一种好的统计方法来比较给定值与一组现有值。目前我正在考虑现有数字的平均值并将其与给定值进行比较。如果该值偏离平均值的 50%,那么我会说它偏离了流量。我正在使用 python 编程语言进行所有计算。还有其他更有效的方法吗?
例如:1,4,7,0,0,0 是当前存在的值。
我得到这些的平均值:2
如果给定的值是10,我会说它不对。
有没有更高效的方法?
据我了解,您需要某种集中趋势度量。一共有三个:平均数、中位数和众数。您要使用哪一个取决于您的目标和优先级。意思很通俗易懂。它有很多有用的统计特性。但是,它受异常值的影响。另一方面,众数和中位数不受异常值的影响,但它们的统计用途较少。此外,在中位数和均值的情况下,您计算的值可能实际上不在您的数据集中,而模式会。
这些考虑因素中的哪一个对您很重要?
但即使在您选择了您喜欢的集中趋势度量之后,您将如何确定什么时候 "too far" 不在集合中?在你的问题中,你只是按百分比来做,但这可能不是最好的方法。
对于大多数问题,我可能会使用均值作为集中趋势的度量,并使用标准差作为统计量来确定一个数字是否 "off the mark." 但其他方法可能更适合您。