修改矩阵以包含各种数据特征

Modifying a matrix to include various data features

我有以下相关性:

    a     b     c
a   1     0.9   0.8
b   0.9   1     0.7
c   0.8   0.7   1

和以下向量:

col1    col2    col3
c1      a       5
c2      a       -6
c1      b       10
c2      b       -15
c1      c       24
c2      c       -30

目的是将 'col3' 向量与每个 'col2' 的相关矩阵匹配元素相乘,同时牢记当 [=55= 时要添加额外的权重 0.7 ] 不同点:

蓝色 Corr(c1a,c1a): 25 = 5 * 5 * 1

绿色校正(c1a,c2a): -21 = 5 * -6 * 1 * .7

黄色Corr(c1a,c1b): 45 = 5 * 10 * .9

红色校正(c1a,c2b): -47.25 = 5 * -15 * .9 * .7

'col1' 不会总是不同(有些情况下它总是 'c1' 所以不需要额外的 0.7 权重,问题只是直接矩阵乘法)

有没有更pythonic的方式来表达上面的内容?

我最初的想法是将相关矩阵展开如下:

蓝色:1

绿色:0.7 = 1 * 0.7

黄色:0.9

红色:0.63 = 0.9 * 0.7

然后通过 einsum 或 tensordot 对向量进行上述操作。 (但我正在努力为其他矢量场景动态设置它) 也许有更好的方法来解决这个问题。 任何其他建议都会很棒!

设置:

import pandas as pd

corr = pd.DataFrame({'a':[1,.9,.8],
                     'b':[.9,1,.7],
                     'c':[.8,.7,1]},
                     index = ['a','b','c'])

inputs = pd.DataFrame({'col1':['c1','c2','c1','c2','c1','c2'],
                       'col2':['a','a','b','b','c','c'],
                       'col3':[5,-6,10,-15,24,-30]})

您可以尝试使用点积和条件乘法:

请注意,设置中的 corr 矩阵缺少索引标签,因此需要执行此额外步骤,如果 corr 矩阵是您在图像中显示的内容,则可以忽略此步骤。

corr1 = corr.set_axis(corr.columns,inplace=False)

解法:

u = inputs.set_index(['col1','col2'])
v = u.dot(u.T).mul(corr1,level=1)
cond = (v.index.get_level_values(0).to_numpy()[:,None] 
        != v.columns.get_level_values(0).to_numpy()) #Credits wwii
#cond = (np.array(v.index.get_level_values(0))[:,None] 
#        != np.array(v.columns.get_level_values(0))[:,None].T)
out = v.mask(cond,v*0.7)

print(out)

col1          c1      c2     c1      c2      c1     c2
col2           a       a      b       b       c      c
col1 col2                                             
c1   a     25.00  -21.00   45.0  -47.25   96.00  -84.0
c2   a    -21.00   36.00  -37.8   81.00  -80.64  144.0
c1   b     45.00  -37.80  100.0 -105.00  168.00 -147.0
c2   b    -47.25   81.00 -105.0  225.00 -176.40  315.0
c1   c     96.00  -80.64  168.0 -176.40  576.00 -504.0
c2   c    -84.00  144.00 -147.0  315.00 -504.00  900.0