如何在理解列表中迭代数据框的索引和列?

How to iterate dataframe´s index and columns in comprehension list?

如果我需要在理解列表中迭代 df,我会这样做:

df['new_col'] = [x if y == 1 and z == 2 for x,y in df[['col_1', 'col_2']].values]

如果不是迭代 col_1col_2,我需要迭代 df.indexdf_col_2 值?

这个 for 条件示例中的理解列表中的语法是什么?

pandas dataframe 和 series 有迭代方法。因此,要遍历索引和给定的列,您可以使用 iteritems:

df['new_col'] = [x if y == '1' and z =='2' for x, y in df['col_2'].iteritems()]

在这种情况下,x 是 index,y 是列 col2

的值

更一般地说,iterrows 使您可以在一次迭代中访问索引和所有列:

for idx, row in df.iterrows():
    print("Index", idx)
    print("col1", row.col1)
    print("col2", row.col2)
    ...

让我们以数据帧为例。然后看看可以用 df.loc 和 df.index.

做的各种事情

我将以 5 个 1 到 4 岁的孩子为例,以及他们目前获得的积分。通常,我更喜欢唯一索引,但对于这个示例,我们希望您希望按索引进行搜索。所以我让它不唯一。

import pandas as pd
df = pd.DataFrame({'Points': [2, 4, 8, 3, 2, 5, 6],
                   'Age': [2, 3, 4, 1, 2, 4, 3]},
                  index=['Bob', 'Mike', 'Steve', 'Kate', 'Jane', 'Jill', 'Jane'])
                  
print (df)

DataFrame 将如下所示:

       Points  Age
Bob         2    2
Mike        4    3
Steve       8    4
Kate        3    1
Jane        2    2
Jill        5    4
Jane        6    3

如果我们想找到所有年龄为 2 且姓名为 Jane 的孩子,您可以给出:

x = df.loc[(df.Age == 2) & (df.index == 'Jane'), 'Points'].tolist() #or .values

print (x)

输出将是:

[2]

如果你想找到所有年龄为2且得分为2分的孩子,你可以给出:

y = df.index[(df.Age == 2) & (df.Points == 2)].tolist() #or .values

print (y)

输出将是:

['Bob', 'Jane']

如果你想找到所有年龄为 3 的孩子,你可以给出:

z = df.index[(df.Age == 3)].tolist() #or .values

print (z)

输出将是:

['Mike', 'Jane']

假设您想缩小范围并将 2 岁的 Jane 更新为 Found in New_col,那么您可以给出:

df.loc[(df.Age == 2) & (df.index == 'Jane'), 'New_col'] = 'Found'

print (df)

输出将是:

       Points  Age New_col
Bob         2    2     NaN
Mike        4    3     NaN
Steve       8    4     NaN
Kate        3    1     NaN
Jane        2    2   Found
Jill        5    4     NaN
Jane        6    3     NaN

None 其中要求我们使用 df.iterrows() 遍历数据帧。我们可以在不使用 df.iterrows() 的情况下进行大量这些数据操作。如果您有特定的用例,让我们回顾一下并提出一个不涉及迭代的解决方案。