如何使用 pandas 条件采样?
How to sample on condition with pandas?
我有一个数据框 df 如下所示:
Col1 Col2
0 1 T
1 1 B
2 3 S
3 2 A
4 1 C
5 2 A
etc...
我想创建两个数据帧:df1 是 10 行的随机样本,使得 Col2=='T'。 df2 是 df 减去 df1 中的行。
假设你有一个唯一索引的数据框(如果你没有,你可以简单地做.reset_index()
,应用它,然后在事后set_index
),你可以使用DataFrame.sample
。 [实际上,即使框架 没有 具有唯一索引,您也应该可以使用 sample
,但您不能使用以下方法获取 df2
.]
请注意,我在此示例中使用 A 而不是 T,因为 A 是您提供的示例中 Col2 的唯一重复值,并且我只会 select 1 随机而不是 10。
>>> df1 = df[df.Col2 == "A"].sample(1)
>>> df2 = df[~df.index.isin(df1.index)]
>>> df1
Col1 Col2
3 2 A
>>> df2
Col1 Col2
0 1 T
1 1 B
2 3 S
4 1 C
5 2 A
我有一个数据框 df 如下所示:
Col1 Col2
0 1 T
1 1 B
2 3 S
3 2 A
4 1 C
5 2 A
etc...
我想创建两个数据帧:df1 是 10 行的随机样本,使得 Col2=='T'。 df2 是 df 减去 df1 中的行。
假设你有一个唯一索引的数据框(如果你没有,你可以简单地做.reset_index()
,应用它,然后在事后set_index
),你可以使用DataFrame.sample
。 [实际上,即使框架 没有 具有唯一索引,您也应该可以使用 sample
,但您不能使用以下方法获取 df2
.]
请注意,我在此示例中使用 A 而不是 T,因为 A 是您提供的示例中 Col2 的唯一重复值,并且我只会 select 1 随机而不是 10。
>>> df1 = df[df.Col2 == "A"].sample(1)
>>> df2 = df[~df.index.isin(df1.index)]
>>> df1
Col1 Col2
3 2 A
>>> df2
Col1 Col2
0 1 T
1 1 B
2 3 S
4 1 C
5 2 A