
find sum of squares after grouping two cols


Value         Type       X_sq    
-1.975767     Weather   
-0.540979     Fruits
-2.359127     Fruits
-2.815604     Corona
-0.929755     Weather

我想遍历每一行并计算上面每一行的平方和值(仅当类型匹配时)。我想把这个值放在 X.sq 列中。

因此,例如,在第一行中,上面没有任何内容。所以只有 (-1.975767 x -1.975767)。在第二行中,上面没有 FRUITS 行,因此它只是 -0.540979 x -0.540979。然而,在第三行,当我们扫描所有前面的行时,我们应该发现 FRUITS 已经在那里了。所以我们应该获取最后一个FRUIT的.....X_sq值并计算新的平方和。

Value         Type       X_sq
-1.975767     Weather   -1.975767 * -1.975767    = x
-0.540979     Fruits    -0.540979 * -0.540979    = y
-2.359127     Fruits    y + ( -2.359127 x -2.359127)  
-2.815604     Corona    -2.815604 * -2.815604
-0.929755     Weather   x + (-0.929755 * -0.929755)


df['sumOfSquares'] = df['value'].pow(2).groupby(df['type']).cumsum()


Value         Type       X_sq    Country
-1.975767     Weather            Albania
-0.540979     Fruits             Brazil      --should be grouped
-2.359127     Fruits             Brazil      --should be grouped
-2.815604     Corona             Albania
-0.929755     Weather            Chine


df['sumOfSquares'] = df['value'].pow(2).groupby(['themes', 'suppliers_country']).cumsum()

但是,即使 'types' 存在于数据集中

----> 1 df['sumOfSquares'] = df['avg_country_tone'].pow(2).groupby(['themes', 'suppliers_country']).cumsum()

KeyError: 'themes'
even though themes is there. Themes = type

发生错误是因为您正在对 pd 系列进行分组并且它没有名为 'themes', 'suppliers_country' 的键。要对系列进行分组,您必须将另一个系列作为 groupby 参数传递,而不是字符串。 尝试将字符串列连接成一个系列,并分组为:

df['sumOfSquares'] = df['Value'].pow(2).groupby(df.Type+"__"+df.Country).cumsum()

或者,您也可以按 2 个不同的系列分组(我认为这是您的第一个想法):

df['sumOfSquares'] = df['Value'].pow(2).groupby([df.Type,df.Country]).cumsum()

您可以在此处 new 创建新的辅助列,因此可以使用您的解决方案并在 groupby:

df['sumOfSquares'] = (df.assign(new = df['avg_country_tone'].pow(2))
                        .groupby(['themes', 'suppliers_country'])['new']

如果要合并 TypeCountry 列以获得总和,请使用:

out = df.assign(X_sq=df['Value'].pow(2)).groupby(['Type', 'Country'])['X_sq'] \

# Output
      Type  Country      X_sq
0   Corona  Albania  7.927626
1   Fruits   Brazil  5.858138
2  Weather  Albania  3.903655
3  Weather    Chine  0.864444