将单个时间序列与大量时间序列相关联
Correlate a single time series with a large number of time series
我有大量 (M
) 个时间序列,每个时间序列有 N
个时间点,存储在一个 MxN
矩阵中。然后我还有一个单独的时间序列,其中包含 N
个时间点,我想将其与矩阵中的所有时间序列相关联。
一个简单的解决方案是逐行遍历矩阵 运行 numpy.corrcoef
。但是,我想知道是否有更快或更简洁的方法来做到这一点?
让我们使用这个 correlation
公式:
您可以将 X
实现为 M x N
数组,将 Y
作为 N
元素的另一个单独时间序列数组 correlated
X
。因此,假设 X
和 Y
分别为 A
和 B
,矢量化实现看起来像这样 -
import numpy as np
# Rowwise mean of input arrays & subtract from input arrays themeselves
A_mA = A - A.mean(1)[:,None]
B_mB = B - B.mean()
# Sum of squares across rows
ssA = (A_mA**2).sum(1)
ssB = (B_mB**2).sum()
# Finally get corr coeff
out = np.dot(A_mA,B_mB.T).ravel()/np.sqrt(ssA*ssB)
# OR out = np.einsum('ij,j->i',A_mA,B_mB)/np.sqrt(ssA*ssB)
验证结果 -
In [115]: A
Out[115]:
array([[ 0.1001229 , 0.77201334, 0.19108671, 0.83574124],
[ 0.23873773, 0.14254842, 0.1878178 , 0.32542199],
[ 0.62674274, 0.42252403, 0.52145288, 0.75656695],
[ 0.24917321, 0.73416177, 0.40779406, 0.58225605],
[ 0.91376553, 0.37977182, 0.38417424, 0.16035635]])
In [116]: B
Out[116]: array([ 0.18675642, 0.3073746 , 0.32381341, 0.01424491])
In [117]: out
Out[117]: array([-0.39788555, -0.95916359, -0.93824771, 0.02198139, 0.23052277])
In [118]: np.corrcoef(A[0],B), np.corrcoef(A[1],B), np.corrcoef(A[2],B)
Out[118]:
(array([[ 1. , -0.39788555],
[-0.39788555, 1. ]]),
array([[ 1. , -0.95916359],
[-0.95916359, 1. ]]),
array([[ 1. , -0.93824771],
[-0.93824771, 1. ]]))
我有大量 (M
) 个时间序列,每个时间序列有 N
个时间点,存储在一个 MxN
矩阵中。然后我还有一个单独的时间序列,其中包含 N
个时间点,我想将其与矩阵中的所有时间序列相关联。
一个简单的解决方案是逐行遍历矩阵 运行 numpy.corrcoef
。但是,我想知道是否有更快或更简洁的方法来做到这一点?
让我们使用这个 correlation
公式:
您可以将 X
实现为 M x N
数组,将 Y
作为 N
元素的另一个单独时间序列数组 correlated
X
。因此,假设 X
和 Y
分别为 A
和 B
,矢量化实现看起来像这样 -
import numpy as np
# Rowwise mean of input arrays & subtract from input arrays themeselves
A_mA = A - A.mean(1)[:,None]
B_mB = B - B.mean()
# Sum of squares across rows
ssA = (A_mA**2).sum(1)
ssB = (B_mB**2).sum()
# Finally get corr coeff
out = np.dot(A_mA,B_mB.T).ravel()/np.sqrt(ssA*ssB)
# OR out = np.einsum('ij,j->i',A_mA,B_mB)/np.sqrt(ssA*ssB)
验证结果 -
In [115]: A
Out[115]:
array([[ 0.1001229 , 0.77201334, 0.19108671, 0.83574124],
[ 0.23873773, 0.14254842, 0.1878178 , 0.32542199],
[ 0.62674274, 0.42252403, 0.52145288, 0.75656695],
[ 0.24917321, 0.73416177, 0.40779406, 0.58225605],
[ 0.91376553, 0.37977182, 0.38417424, 0.16035635]])
In [116]: B
Out[116]: array([ 0.18675642, 0.3073746 , 0.32381341, 0.01424491])
In [117]: out
Out[117]: array([-0.39788555, -0.95916359, -0.93824771, 0.02198139, 0.23052277])
In [118]: np.corrcoef(A[0],B), np.corrcoef(A[1],B), np.corrcoef(A[2],B)
Out[118]:
(array([[ 1. , -0.39788555],
[-0.39788555, 1. ]]),
array([[ 1. , -0.95916359],
[-0.95916359, 1. ]]),
array([[ 1. , -0.93824771],
[-0.93824771, 1. ]]))