快速查找保留排序的 pandas DataFrame 的所有排列的方法?
Quick way to find all permutations of a pandas DataFrame that preserves a sort?
我有一个 DataFrame,我想找到其中一列满足简单升序排序的所有排列。 (有很多关系。)例如,在下面的DataFrame
df = pd.DataFrame({'name': ["Abe", "Bob", "Chris", "David", "Evan"],
'age': [28, 20, 21, 22, 21]})
我希望按年龄排序并获得订单 ["Bob", "Chris", "Evan", "David", "Abe"]
和 ["Bob", "Evan", "Chris", "David", "Abe"]
。
我是 python(以及 pandas)的新手,想知道是否有一种我没有看到的简单方法可以做到这一点。
谢谢!
中途:
import pandas as pd
from itertools import permutations, product
df = pd.DataFrame({'name': ["Abe", "Bob", "Chris", "David",
"Evan","Ford","Giles","Ham"],
'age': [20, 20, 21, 22,
21, 21, 22, 22]})
dfg = df.groupby('age')
perms = {}
for k, v in dfg:
perms[k] = list(permutations(v.values))
print(perms)
和perms
价值观正见的产物是Bob——你21岁的叔叔。
你可以用numpy来排序
np.sort(data[age])[::-1]
由于您是按年龄分组的,所以让我们这样做 return 每个组的所有排列,然后取乘积(使用 itertools 的乘积和排列函数):
In [11]: age = df.groupby("age")
如果我们查看单个组的排列:
In [12]: age.get_group(21)
Out[12]:
age name
2 21 Chris
4 21 Evan
In [13]: list(permutations(age.get_group(21).index))
Out[13]: [(2, 4), (4, 2)]
In [14]: [df.loc[list(p)] for p in permutations(age.get_group(21).index)]
Out[14]:
[ age name
2 21 Chris
4 21 Evan, age name
4 21 Evan
2 21 Chris]
我们可以在整个 DataFrame 上通过 return 只为每个组设置索引(假设索引是唯一的,如果在执行此操作之前它不是 reset_index
...你可能能够做一些稍微低一点的事情):
In [21]: [list(permutations(grp.index)) for (name, grp) in age]
Out[21]: [[(1,)], [(2, 4), (4, 2)], [(3,)], [(0,)]]
In [22]: list(product(*[(permutations(grp.index)) for (name, grp) in age]))
Out[22]: [((1,), (2, 4), (3,), (0,)), ((1,), (4, 2), (3,), (0,))]
我们可以用总和把它们粘在一起:
In [23]: [sum(tups, ()) for tups in product(*[(permutations(grp.index)) for (name, grp) in age])]
Out[23]: [(1, 2, 4, 3, 0), (1, 4, 2, 3, 0)]
如果你把这些列成一个列表,你可以应用 loc(这会得到你想要的结果):
In [24]: [df.loc[list(sum(tups, ()))] for tups in product(*[list(permutations(grp.index)) for (name, grp) in age])]
Out[24]:
[ age name
1 20 Bob
2 21 Chris
4 21 Evan
3 22 David
0 28 Abe, age name
1 20 Bob
4 21 Evan
2 21 Chris
3 22 David
0 28 Abe]
以及名称列(的列表):
In [25]: [list(df.loc[list(sum(tups, ())), "name"]) for tups in product(*[(permutations(grp.index)) for (name, grp) in age])]
Out[25]:
[['Bob', 'Chris', 'Evan', 'David', 'Abe'],
['Bob', 'Evan', 'Chris', 'David', 'Abe']]
注意:使用 numpy permutation matrix 和 pd.tools.util.cartesian_product
可能 更快。我怀疑它太多了,除非它慢得无法使用(它可能会很慢,因为可能有很多排列),否则不会探索它...
跟随 cphlewis,我得到了:
import pandas as pd
import itertools as it
df = pd.DataFrame({'name': ["Abe", "Bob", "Chris", "David",
"Evan", "Ford", "Giles", "Ham"],
'age': [20, 21, 20, 20,
24, 25, 25, 27]})
dfg = df.groupby('age')
permsAtEachAge = []
for age, people in dfg:
permsAtEachAge.append(list(it.permutations(people.name.values)))
product = list(it.product(*permsAtEachAge))
overallPermutations = map(lambda x: list(it.chain(*x)), product)
Andy Hayden 的完整解决方案看起来也能完美运行。
import pandas as pd
df.sort_values(by = 'age')
我有一个 DataFrame,我想找到其中一列满足简单升序排序的所有排列。 (有很多关系。)例如,在下面的DataFrame
df = pd.DataFrame({'name': ["Abe", "Bob", "Chris", "David", "Evan"],
'age': [28, 20, 21, 22, 21]})
我希望按年龄排序并获得订单 ["Bob", "Chris", "Evan", "David", "Abe"]
和 ["Bob", "Evan", "Chris", "David", "Abe"]
。
我是 python(以及 pandas)的新手,想知道是否有一种我没有看到的简单方法可以做到这一点。
谢谢!
中途:
import pandas as pd
from itertools import permutations, product
df = pd.DataFrame({'name': ["Abe", "Bob", "Chris", "David",
"Evan","Ford","Giles","Ham"],
'age': [20, 20, 21, 22,
21, 21, 22, 22]})
dfg = df.groupby('age')
perms = {}
for k, v in dfg:
perms[k] = list(permutations(v.values))
print(perms)
和perms
价值观正见的产物是Bob——你21岁的叔叔。
你可以用numpy来排序
np.sort(data[age])[::-1]
由于您是按年龄分组的,所以让我们这样做 return 每个组的所有排列,然后取乘积(使用 itertools 的乘积和排列函数):
In [11]: age = df.groupby("age")
如果我们查看单个组的排列:
In [12]: age.get_group(21)
Out[12]:
age name
2 21 Chris
4 21 Evan
In [13]: list(permutations(age.get_group(21).index))
Out[13]: [(2, 4), (4, 2)]
In [14]: [df.loc[list(p)] for p in permutations(age.get_group(21).index)]
Out[14]:
[ age name
2 21 Chris
4 21 Evan, age name
4 21 Evan
2 21 Chris]
我们可以在整个 DataFrame 上通过 return 只为每个组设置索引(假设索引是唯一的,如果在执行此操作之前它不是 reset_index
...你可能能够做一些稍微低一点的事情):
In [21]: [list(permutations(grp.index)) for (name, grp) in age]
Out[21]: [[(1,)], [(2, 4), (4, 2)], [(3,)], [(0,)]]
In [22]: list(product(*[(permutations(grp.index)) for (name, grp) in age]))
Out[22]: [((1,), (2, 4), (3,), (0,)), ((1,), (4, 2), (3,), (0,))]
我们可以用总和把它们粘在一起:
In [23]: [sum(tups, ()) for tups in product(*[(permutations(grp.index)) for (name, grp) in age])]
Out[23]: [(1, 2, 4, 3, 0), (1, 4, 2, 3, 0)]
如果你把这些列成一个列表,你可以应用 loc(这会得到你想要的结果):
In [24]: [df.loc[list(sum(tups, ()))] for tups in product(*[list(permutations(grp.index)) for (name, grp) in age])]
Out[24]:
[ age name
1 20 Bob
2 21 Chris
4 21 Evan
3 22 David
0 28 Abe, age name
1 20 Bob
4 21 Evan
2 21 Chris
3 22 David
0 28 Abe]
以及名称列(的列表):
In [25]: [list(df.loc[list(sum(tups, ())), "name"]) for tups in product(*[(permutations(grp.index)) for (name, grp) in age])]
Out[25]:
[['Bob', 'Chris', 'Evan', 'David', 'Abe'],
['Bob', 'Evan', 'Chris', 'David', 'Abe']]
注意:使用 numpy permutation matrix 和 pd.tools.util.cartesian_product
可能 更快。我怀疑它太多了,除非它慢得无法使用(它可能会很慢,因为可能有很多排列),否则不会探索它...
跟随 cphlewis,我得到了:
import pandas as pd
import itertools as it
df = pd.DataFrame({'name': ["Abe", "Bob", "Chris", "David",
"Evan", "Ford", "Giles", "Ham"],
'age': [20, 21, 20, 20,
24, 25, 25, 27]})
dfg = df.groupby('age')
permsAtEachAge = []
for age, people in dfg:
permsAtEachAge.append(list(it.permutations(people.name.values)))
product = list(it.product(*permsAtEachAge))
overallPermutations = map(lambda x: list(it.chain(*x)), product)
Andy Hayden 的完整解决方案看起来也能完美运行。
import pandas as pd
df.sort_values(by = 'age')