Pandas

Question

   Survived  SibSp  Parch
0         0      1      0
1         1      1      0
2         1      0      0
3         1      1      0
4         0      0      1

鉴于上述数据框，是否有一种优雅的方法来 groupby 有条件？我想根据以下条件将数据分成两组：

(df['SibSp'] > 0) | (df['Parch'] > 0) =   New Group -"Has Family"
 (df['SibSp'] == 0) & (df['Parch'] == 0) = New Group - "No Family"

然后采用这两个组的方法，最终得到如下输出：

               SurvivedMean
 Has Family    Mean
 No Family     Mean

可以使用 groupby 完成吗，还是我必须使用上述条件语句附加一个新列？

Answer 1

如果 SibSp 和 Parch 列中的值从未小于 0:

，则仅使用一个条件

m1 = (df['SibSp'] > 0) | (df['Parch'] > 0)

df = df.groupby(np.where(m1, 'Has Family', 'No Family'))['Survived'].mean()
print (df)
Has Family    0.5
No Family     1.0
Name: Survived, dtype: float64

如果不可能先使用两个条件：

m1 = (df['SibSp'] > 0) | (df['Parch'] > 0)
m2 = (df['SibSp'] == 0) & (df['Parch'] == 0)
a = np.where(m1, 'Has Family', 
    np.where(m2, 'No Family', 'Not'))

df = df.groupby(a)['Survived'].mean()
print (df)
Has Family    0.5
No Family     1.0
Name: Survived, dtype: float64

Answer 2

一种简单的分组方法是使用这两列的总和。如果其中一个为正数，则结果将大于 1。并且 groupby 接受任意数组，只要长度与 DataFrame 的长度相同即可，因此您无需添加新列。

family = np.where((df['SibSp'] + df['Parch']) >= 1 , 'Has Family', 'No Family')
df.groupby(family)['Survived'].mean()
Out: 
Has Family    0.5
No Family     1.0
Name: Survived, dtype: float64

Answer 3

您可以在列表中定义您的条件，并使用下面的函数 group_by_condition 为每个条件创建过滤列表。之后，您可以 select 使用模式匹配得到结果项：

df = [
  {"Survived": 0, "SibSp": 1, "Parch": 0},
  {"Survived": 1, "SibSp": 1, "Parch": 0},
  {"Survived": 1, "SibSp": 0, "Parch": 0}]

conditions = [
  lambda x: (x['SibSp'] > 0) or (x['Parch'] > 0),  # has family
  lambda x: (x['SibSp'] == 0) and (x['Parch'] == 0)  # no family
]

def group_by_condition(l, conditions):
    return [[item for item in l if condition(item)] for condition in conditions]

[has_family, no_family] = group_by_condition(df, conditions)

Pandas - Groupby 条件公式

Pandas - Groupby with conditional formula

python

conditional-statements

dataframe

pandas-groupby