如何在理解列表中迭代数据框的索引和列?
How to iterate dataframe´s index and columns in comprehension list?
如果我需要在理解列表中迭代 df
,我会这样做:
df['new_col'] = [x if y == 1 and z == 2 for x,y in df[['col_1', 'col_2']].values]
如果不是迭代 col_1
和 col_2
,我需要迭代 df.index
和 df_col_2
值?
这个 for
条件示例中的理解列表中的语法是什么?
pandas dataframe 和 series 有迭代方法。因此,要遍历索引和给定的列,您可以使用 iteritems:
df['new_col'] = [x if y == '1' and z =='2' for x, y in df['col_2'].iteritems()]
在这种情况下,x 是 index
,y 是列 col2
的值
更一般地说,iterrows
使您可以在一次迭代中访问索引和所有列:
for idx, row in df.iterrows():
print("Index", idx)
print("col1", row.col1)
print("col2", row.col2)
...
让我们以数据帧为例。然后看看可以用 df.loc 和 df.index.
做的各种事情
我将以 5 个 1 到 4 岁的孩子为例,以及他们目前获得的积分。通常,我更喜欢唯一索引,但对于这个示例,我们希望您希望按索引进行搜索。所以我让它不唯一。
import pandas as pd
df = pd.DataFrame({'Points': [2, 4, 8, 3, 2, 5, 6],
'Age': [2, 3, 4, 1, 2, 4, 3]},
index=['Bob', 'Mike', 'Steve', 'Kate', 'Jane', 'Jill', 'Jane'])
print (df)
DataFrame 将如下所示:
Points Age
Bob 2 2
Mike 4 3
Steve 8 4
Kate 3 1
Jane 2 2
Jill 5 4
Jane 6 3
如果我们想找到所有年龄为 2 且姓名为 Jane 的孩子,您可以给出:
x = df.loc[(df.Age == 2) & (df.index == 'Jane'), 'Points'].tolist() #or .values
print (x)
输出将是:
[2]
如果你想找到所有年龄为2且得分为2分的孩子,你可以给出:
y = df.index[(df.Age == 2) & (df.Points == 2)].tolist() #or .values
print (y)
输出将是:
['Bob', 'Jane']
如果你想找到所有年龄为 3 的孩子,你可以给出:
z = df.index[(df.Age == 3)].tolist() #or .values
print (z)
输出将是:
['Mike', 'Jane']
假设您想缩小范围并将 2 岁的 Jane 更新为 Found in New_col
,那么您可以给出:
df.loc[(df.Age == 2) & (df.index == 'Jane'), 'New_col'] = 'Found'
print (df)
输出将是:
Points Age New_col
Bob 2 2 NaN
Mike 4 3 NaN
Steve 8 4 NaN
Kate 3 1 NaN
Jane 2 2 Found
Jill 5 4 NaN
Jane 6 3 NaN
None 其中要求我们使用 df.iterrows() 遍历数据帧。我们可以在不使用 df.iterrows() 的情况下进行大量这些数据操作。如果您有特定的用例,让我们回顾一下并提出一个不涉及迭代的解决方案。
如果我需要在理解列表中迭代 df
,我会这样做:
df['new_col'] = [x if y == 1 and z == 2 for x,y in df[['col_1', 'col_2']].values]
如果不是迭代 col_1
和 col_2
,我需要迭代 df.index
和 df_col_2
值?
这个 for
条件示例中的理解列表中的语法是什么?
pandas dataframe 和 series 有迭代方法。因此,要遍历索引和给定的列,您可以使用 iteritems:
df['new_col'] = [x if y == '1' and z =='2' for x, y in df['col_2'].iteritems()]
在这种情况下,x 是 index
,y 是列 col2
更一般地说,iterrows
使您可以在一次迭代中访问索引和所有列:
for idx, row in df.iterrows():
print("Index", idx)
print("col1", row.col1)
print("col2", row.col2)
...
让我们以数据帧为例。然后看看可以用 df.loc 和 df.index.
做的各种事情我将以 5 个 1 到 4 岁的孩子为例,以及他们目前获得的积分。通常,我更喜欢唯一索引,但对于这个示例,我们希望您希望按索引进行搜索。所以我让它不唯一。
import pandas as pd
df = pd.DataFrame({'Points': [2, 4, 8, 3, 2, 5, 6],
'Age': [2, 3, 4, 1, 2, 4, 3]},
index=['Bob', 'Mike', 'Steve', 'Kate', 'Jane', 'Jill', 'Jane'])
print (df)
DataFrame 将如下所示:
Points Age
Bob 2 2
Mike 4 3
Steve 8 4
Kate 3 1
Jane 2 2
Jill 5 4
Jane 6 3
如果我们想找到所有年龄为 2 且姓名为 Jane 的孩子,您可以给出:
x = df.loc[(df.Age == 2) & (df.index == 'Jane'), 'Points'].tolist() #or .values
print (x)
输出将是:
[2]
如果你想找到所有年龄为2且得分为2分的孩子,你可以给出:
y = df.index[(df.Age == 2) & (df.Points == 2)].tolist() #or .values
print (y)
输出将是:
['Bob', 'Jane']
如果你想找到所有年龄为 3 的孩子,你可以给出:
z = df.index[(df.Age == 3)].tolist() #or .values
print (z)
输出将是:
['Mike', 'Jane']
假设您想缩小范围并将 2 岁的 Jane 更新为 Found in New_col
,那么您可以给出:
df.loc[(df.Age == 2) & (df.index == 'Jane'), 'New_col'] = 'Found'
print (df)
输出将是:
Points Age New_col
Bob 2 2 NaN
Mike 4 3 NaN
Steve 8 4 NaN
Kate 3 1 NaN
Jane 2 2 Found
Jill 5 4 NaN
Jane 6 3 NaN
None 其中要求我们使用 df.iterrows() 遍历数据帧。我们可以在不使用 df.iterrows() 的情况下进行大量这些数据操作。如果您有特定的用例,让我们回顾一下并提出一个不涉及迭代的解决方案。