计算 Python 中的加权统计矩
Calculate weighted statistical moments in Python
我一直在寻找可以让我以加权方式计算分布的偏斜和峰度的函数或程序包,因为我有直方图数据。
例如我有数据
import numpy as np
np.array([[1, 2],
[2, 5],
[3, 6],
[4,12],
[5, 1])
其中第一列 [1,2,3,4,5]
是值,第二列 [2,5,6,12,1]
是值的频率。
我已经找到如何使用 this thread 中指定的 weighted_avg_and_std
函数以加权方式计算前两个时刻(均值、标准差),但我不太确定我是如何计算的可以将其扩展到偏度和峰度,甚至是第 n 个统计时刻。
我自己找到了定义 here 并且可以手动编写函数来从头开始实现它,但是在我开始这样做之前我想知道是否有任何现有的包或函数可以这样做。
谢谢
编辑:
我想通了,以下代码有效(请注意,这是针对 population 时刻)
skewnewss = np.average(((values-average)/np.sqrt(variance))**3, weights=weights)
和
kurtosis=np.average(((values-average)/np.sqrt(variance))**4-3, weights=weights)
我想你已经列出了你需要的所有成分,按照你提供的 link 中的公式:
import numpy as np
a = np.array([[1,2],[2,5],[3,6],[4,12],[5,1]])
values, weights = a.T
def n_weighted_moment(values, weights, n):
assert n>0 & (values.shape == weights.shape)
w_avg = np.average(values, weights = weights)
w_var = np.sum(weights * (values - w_avg)**2)/np.sum(weights)
if n==1:
return w_avg
elif n==2:
return w_var
else:
w_std = np.sqrt(w_var)
return np.sum(weights * ((values - w_avg)/w_std)**n)/np.sum(weights)
#Same as np.average(((values - w_avg)/w_std)**n, weights=weights)
这导致:
for n in range(1,5):
print(f'Moment {n} value is {n_weighted_moment(values, weights, n)}')
Moment 1 value is 3.1923076923076925
Moment 2 value is 1.0784023668639053
Moment 3 value is -0.5962505715592139
Moment 4 value is 2.384432138280637
请注意,在计算 超峰度 时,为通用 n 矩实施的公式并未考虑到这一点。
取自here
这是代码
def weighted_mean(var, wts):
"""Calculates the weighted mean"""
return np.average(var, weights=wts)
def weighted_variance(var, wts):
"""Calculates the weighted variance"""
return np.average((var - weighted_mean(var, wts))**2, weights=wts)
def weighted_skew(var, wts):
"""Calculates the weighted skewness"""
return (np.average((var - weighted_mean(var, wts))**3, weights=wts) /
weighted_variance(var, wts)**(1.5))
def weighted_kurtosis(var, wts):
"""Calculates the weighted skewness"""
return (np.average((var - weighted_mean(var, wts))**4, weights=wts) /
weighted_variance(var, wts)**(2))
我一直在寻找可以让我以加权方式计算分布的偏斜和峰度的函数或程序包,因为我有直方图数据。
例如我有数据
import numpy as np
np.array([[1, 2],
[2, 5],
[3, 6],
[4,12],
[5, 1])
其中第一列 [1,2,3,4,5]
是值,第二列 [2,5,6,12,1]
是值的频率。
我已经找到如何使用 this thread 中指定的 weighted_avg_and_std
函数以加权方式计算前两个时刻(均值、标准差),但我不太确定我是如何计算的可以将其扩展到偏度和峰度,甚至是第 n 个统计时刻。
我自己找到了定义 here 并且可以手动编写函数来从头开始实现它,但是在我开始这样做之前我想知道是否有任何现有的包或函数可以这样做。
谢谢
编辑: 我想通了,以下代码有效(请注意,这是针对 population 时刻)
skewnewss = np.average(((values-average)/np.sqrt(variance))**3, weights=weights)
和
kurtosis=np.average(((values-average)/np.sqrt(variance))**4-3, weights=weights)
我想你已经列出了你需要的所有成分,按照你提供的 link 中的公式:
import numpy as np
a = np.array([[1,2],[2,5],[3,6],[4,12],[5,1]])
values, weights = a.T
def n_weighted_moment(values, weights, n):
assert n>0 & (values.shape == weights.shape)
w_avg = np.average(values, weights = weights)
w_var = np.sum(weights * (values - w_avg)**2)/np.sum(weights)
if n==1:
return w_avg
elif n==2:
return w_var
else:
w_std = np.sqrt(w_var)
return np.sum(weights * ((values - w_avg)/w_std)**n)/np.sum(weights)
#Same as np.average(((values - w_avg)/w_std)**n, weights=weights)
这导致:
for n in range(1,5):
print(f'Moment {n} value is {n_weighted_moment(values, weights, n)}')
Moment 1 value is 3.1923076923076925
Moment 2 value is 1.0784023668639053
Moment 3 value is -0.5962505715592139
Moment 4 value is 2.384432138280637
请注意,在计算 超峰度 时,为通用 n 矩实施的公式并未考虑到这一点。
取自here
这是代码
def weighted_mean(var, wts):
"""Calculates the weighted mean"""
return np.average(var, weights=wts)
def weighted_variance(var, wts):
"""Calculates the weighted variance"""
return np.average((var - weighted_mean(var, wts))**2, weights=wts)
def weighted_skew(var, wts):
"""Calculates the weighted skewness"""
return (np.average((var - weighted_mean(var, wts))**3, weights=wts) /
weighted_variance(var, wts)**(1.5))
def weighted_kurtosis(var, wts):
"""Calculates the weighted skewness"""
return (np.average((var - weighted_mean(var, wts))**4, weights=wts) /
weighted_variance(var, wts)**(2))