如何计算 python 中列表的方差?

How can I calculate the variance of a list in python?

如果我有这样的列表:

results=[-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439,
          0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]

我想在 Python 中计算此列表的方差,即与均值的平方差的平均值。

我该怎么做?访问列表中的元素来进行计算让我对平方差感到困惑。

你可以使用numpy的内置函数var:

import numpy as np

results = [-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439,
          0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]

print(np.var(results))

这给你 28.822364260579157

如果 - 无论出于何种原因 - 你不能使用 numpy and/or 你不想为它使用内置函数,你也可以计算它 "by hand" 使用例如list comprehension:

# calculate mean
m = sum(results) / len(results)

# calculate variance using a list comprehension
var_res = sum((xi - m) ** 2 for xi in results) / len(results)

这给你相同的结果。

如果您对标准差感兴趣,可以使用numpy.std:

print(np.std(results))
5.36864640860051

方差nn-1之间的差异。在 numpy 中,您可以使用选项 ddof 轻松设置此参数;它的默认值是 0,所以对于 n-1 的情况你可以简单地做:

np.var(results, ddof=1)

"by hand" 解决方案在 中给出。

两种方法都会产生 32.024849178421285

您也可以为std设置参数:

np.std(results, ddof=1)
5.659050201086865

好吧,有两种定义方差的方法。当你有一个完整的集合时,你有方差 n,当你有一个样本时,你有方差 n-1

两者的区别在于值 m = sum(xi) / n 是真实平均值还是只是平均值的近似值。

Example1 : 你想知道a class 中学生的平均身高及其方差 : ok,值m = sum(xi) / n 是真实平均值,Cleb 给出的公式就可以了(方差 n)。

示例 2:您想知道公交车经过公交车站的平均时间及其方差。您记下一个月的小时数,并获得 30 个值。这里的值 m = sum(xi) / n 只是实际平均值的近似值,并且该近似值会随着值的增加而更加准确。在这种情况下,实际方差的最佳近似值是方差 n-1

varRes = sum([(xi - m)**2 for xi in results]) / (len(results) -1)

好吧,和Python没有关系,但是对统计分析确实有影响,问题打上 and

注意:通常情况下,像 numpy 这样的统计库使用方差 n 作为他们所谓的 varvariance,而方差 n-1 给出标准差的函数。

Numpy 确实是最优雅、最快速的方法。

我认为真正的问题是关于如何访问列表的各个元素来自己进行这样的计算,下面是一个示例:

results=[-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439,
      0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]

import numpy as np
print 'numpy variance: ', np.var(results)


# without numpy by hand  

# there are two ways of calculating the variance 
#   - 1. direct as central 2nd order moment (https://en.wikipedia.org/wiki/Moment_(mathematics))divided by the length of the vector
#   - 2. "mean of square minus square of mean" (see https://en.wikipedia.org/wiki/Variance)

# calculate mean
n= len(results)
sum=0
for i in range(n):
    sum = sum+ results[i]


mean=sum/n
print 'mean: ', mean

#  calculate the central moment
sum2=0
for i in range(n):
    sum2=sum2+ (results[i]-mean)**2

myvar1=sum2/n
print "my variance1: ", myvar1

# calculate the mean of square minus square of mean
sum3=0
for i in range(n):
    sum3=sum3+ results[i]**2

myvar2 = sum3/n - mean**2
print "my variance2: ", myvar2

给你:

numpy variance:  28.8223642606
mean:  -3.731599805
my variance1:  28.8223642606
my variance2:  28.8223642606

开始Python 3.4,标准库自带variance function (sample variance or variance n-1) as part of the statistics模块:

from statistics import variance
# data = [-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439, 0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]
variance(data)
# 32.024849178421285

p总体方差(或方差n)可以使用pvariance函数:

from statistics import pvariance
# data = [-14.82381293, -0.29423447, -13.56067979, -1.6288903, -0.31632439, 0.53459687, -1.34069996, -1.61042692, -4.03220519, -0.24332097]
pvariance(data)
# 28.822364260579157

另请注意,如果您已经知道列表的平均值,则 variancepvariance 函数采用第二个参数(分别为 xbarmu)为了避免重新计算样本的均值(这是方差计算的一部分)。

正确答案是使用像 NumPy 这样的软件包之一,但如果您想自己动手,并且想逐步进行,则有一种精度更高的好算法。看到这个linkhttps://www.johndcook.com/blog/standard_deviation/

我将我的 perl 实现移植到 Python。有问题请在评论中指出。

Mklast = 0
Mk = 0
Sk = 0
k  = 0 

for xi in results:
  k = k +1
  Mk = Mklast + (xi - Mklast) / k
  Sk = Sk + (xi - Mklast) * ( xi - Mk)
  Mklast = Mk

var = Sk / (k -1)
print var

答案是

>>> print var
32.0248491784
import numpy as np
def get_variance(xs):
    mean = np.mean(xs)
    summed = 0
    for x in xs:
        summed += (x - mean)**2
    return summed / (len(xs))
print(get_variance([1,2,3,4,5]))

出局 2.0

a = [1,2,3,4,5]
variance = np.var(a, ddof=1)
print(variance)

如果没有导入,我将使用以下 python3 脚本:

#!/usr/bin/env python3

def createData():
    data1=[12,54,60,3,15,6,36]
    data2=[1,2,3,4,5]
    data3=[100,30000,1567,3467,20000,23457,400,1,15]

    dataset=[]
    dataset.append(data1)
    dataset.append(data2)
    dataset.append(data3)

    return dataset

def calculateMean(data):
    means=[]
    # one list of the nested list
    for oneDataset in data:
        sum=0
        mean=0
        # one datapoint in one inner list
        for number in oneDataset:
            # summing up
            sum+=number
        # mean for one inner list
        mean=sum/len(oneDataset)
        # adding a tuples of the original data and their mean to
        # a list of tuples
        item=(oneDataset, mean)
        means.append(item)

    return means

# to do: substract mean from each element and square the result
# sum up the square results and divide by number of elements
def calculateVariance(meanData):
    variances=[]
    # meanData is the list of tuples
    # pair is one tuple
    for pair in meanData:
        # pair[0] is the original data
        interResult=0
        squareSum=0
        for element in pair[0]:
            interResult=(element-pair[1])**2
            squareSum+=interResult
        variance=squareSum/len(pair[0])
        variances.append((pair[0], pair[1], variance))

    return variances





def main():
    my_data=createData()
    my_means=calculateMean(my_data)
    my_variances=calculateVariance(my_means)
    print(my_variances)

if __name__ == "__main__":
    main()

在这里您可以打印原始数据、它们的均值和方差。我知道这种方法涵盖了多个数据集的列表,但我认为您可以根据自己的目的快速调整它 ;)

这是我的解决方案

vac_nums = [0,0,0,0,0, 1,1,1,1,1,1,1,1, 2,2,2,2, 3,3,3 ] #你的代码在这里

mean = sum(vac_nums)/len(vac_nums);

count=0;

for i in range(len(vac_nums)):
   variance = (vac_nums[i]-mean)**2;
   count += variance;

print (count/len(vac_nums));