为什么标准偏差是观察值与平均值之差的平方?

Why is Standard Deviation the square of difference of an obsevation from the mean?

我正在学习统计,并且有一些关于 SD 的基本但核心的问题:

s = sample size

n = total number of observations

xi = ith observation

μ = arithmetic mean of all observations

σ = the usual definition of SD, i.e. ((1/(n-1))*sum([(xi-μ)**2 for xi in s])**(1/2) in Python lingo

f = frequency of an observation value

  1. 我知道 (1/n)*sum([xi-μ for xi in s]) 是无用的 (= 0),但 (1/n)*sum([abs(xi-μ) for xi in s]) 不会是变异的衡量标准吗?
  2. 为什么停在 1 或 2 的幂? ((1/(n-1))*sum([abs((xi-μ)**3) for xi in s])**(1/3)((1/(n-1))*sum([(xi-μ)**4 for xi in s])**(1/4) 等等有意义吗?
  3. 我对平方的概念是 'amplifies' 衡量算术平均值的偏差,而简单的绝对差在概念上有点线性比例。如果我将它立方(当然是绝对值)或四倍,它不会放大得更多吗?
  4. 我同意计算立方体和四边形会更昂贵。但同样的论点,绝对值会更便宜......那么为什么是正方形?
  5. 为什么正态分布是这样的,即 f = (1/(σ*math.sqrt(2*pi)))*e**((-1/2)*((xi-μ)/σ))
  6. 如果按照上面(1)和(2)的方法计算SD,会对上面的正态分布公式产生什么影响?
  7. 这只是我们的问题吗'getting used to the squares',它很可能是线性的、立方的或四边形的,我们也会同样地训练我们的思维?

(我上面的左括号和右括号的数量可能不是 100% 准确,但你会明白的。)

因此,如果您正在寻找分散指数,实际上您 没有 使用标准偏差。您确实可以报告 平均绝对偏差 ,您建议的汇总统计数据。您只需要了解每个汇总统计数据的行为方式,例如 SD 会为异常变量分配更多权重。您还应该考虑如何解释每一个。例如,对于正态分布,我们知道有多少分布位于均值的 ±2SD 之间。有关平均绝对偏差(以及平均绝对偏差的其他度量,例如中位数平均偏差)及其用途的一些讨论,请参阅 here

尽管 SD 用作传播度量,但它与方差有关,这与它流行的其他一些原因有关,因为方差具有一些很好的数学特性。数学家或统计学家可以在这里提供更明智的答案,但平方差是一个光滑的函数并且在任何地方都是可微的,允许人们分析地确定最小值,这有助于使用最小二乘估计将函数拟合到数据。有关更多详细信息以及与最小绝对偏差的比较,请参阅 here. Another major area where variance shines is that it can be easily decomposed and summed, which is useful for example in ANOVA and regression models generally. See here 进行讨论。

至于你关于提升到更高权力的问题,它们实际上在统计中确实有用!一般来说,均值(与平均绝对均值有关)、方差(与标准差有关)、偏度(与三次方有关)和峰度(与四次方有关)都与moments的一个分布。将差异提升到这些权力并对其进行标准化提供了有关分布形状的有用信息。我链接的视频提供了一些简单的直觉。

有关 SD 为何如此受欢迎的其他一些答案和更广泛的讨论,请参阅 here

关于sigma和正态分布的关系,sigma只是拉伸标准正态分布的一个参数,就像均值改变了它的位置。这只是标准正态分布(均值 = 0 且 SD = 方差 = 1 的正态分布)在数学上定义的方式的结果,请注意所有正态分布都可以从标准正态分布导出。 This answer illustrates this. Now, you can parameterize a normal distribution in other ways as well, but I believe you do need to provide sigma, whether using the SD or precisions. I don't think you can even parametrize a normal distribution using just the mean and the mean absolute difference. Now, a deeper question is why normal distributions are so incredibly useful in representing widely different phenomena and crop up everywhere. I think this is related to the Central Limit Theorem, but I do not understand the proofs 定理很好,可以进一步评论。