在 Pandas 中旋转每个组
Pivot each group in Pandas
使用 Pandas 我在我的数据框上调用了 groupby 并获得了以下内容:
>>>grouped = df.groupby(['cid'])
for key, gr in grouped:
print(key)
print(gr)
Out: cid price
121 12
121 10
121 9
我想让每个组像这样旋转:
cid price1 price2 price3
121 12 10 9
使用 Pandas 执行此操作的正确方法是什么?
假设您的框架看起来像
>>> df = pd.DataFrame({"cid": np.arange(64)//8, "price": np.arange(64)})
>>> df.head()
cid price
0 0 0
1 0 1
2 0 2
3 0 3
4 0 4
那我想你可以通过组合groupby
和pivot
得到你想要的:
df = pd.DataFrame({"cid": np.arange(64)//8, "price": np.arange(64)})
df["num"] = df.groupby("cid")["price"].cumcount() + 1
pivoted = df.pivot(index="cid", columns="num", values="price")
pivoted.columns = "price" + pivoted.columns.astype(str)
pivoted = pivoted.reset_index()
这给出了
>>> pivoted
cid price1 price2 price3 price4 price5 price6 price7 price8
0 0 0 1 2 3 4 5 6 7
1 1 8 9 10 11 12 13 14 15
2 2 16 17 18 19 20 21 22 23
3 3 24 25 26 27 28 29 30 31
4 4 32 33 34 35 36 37 38 39
5 5 40 41 42 43 44 45 46 47
6 6 48 49 50 51 52 53 54 55
7 7 56 57 58 59 60 61 62 63
旁白:在字符串末尾粘贴数字,例如"price5",通常不是一个好主意。你不能真正与他们合作,他们不会按照你期望的方式排序,等等。
首先,我们创建一个列,显示某物在价格中的索引:
>>> df["num"] = df.groupby("cid")["price"].cumcount() + 1
>>> df.head(10)
cid price num
0 0 0 1
1 0 1 2
2 0 2 3
[etc.]
7 0 7 8
8 1 8 1
9 1 9 2
然后我们pivot
:
>>> pivoted = df.pivot(index="cid", columns="num", values="price")
>>> pivoted
num 1 2 3 4 5 6 7 8
cid
0 0 1 2 3 4 5 6 7
1 8 9 10 11 12 13 14 15
2 16 17 18 19 20 21 22 23
3 24 25 26 27 28 29 30 31
4 32 33 34 35 36 37 38 39
5 40 41 42 43 44 45 46 47
6 48 49 50 51 52 53 54 55
7 56 57 58 59 60 61 62 63
然后我们修复列:
>>> pivoted.columns = "price" + pivoted.columns.astype(str)
>>> pivoted
price1 price2 price3 price4 price5 price6 price7 price8
cid
0 0 1 2 3 4 5 6 7
1 8 9 10 11 12 13 14 15
2 16 17 18 19 20 21 22 23
3 24 25 26 27 28 29 30 31
4 32 33 34 35 36 37 38 39
5 40 41 42 43 44 45 46 47
6 48 49 50 51 52 53 54 55
7 56 57 58 59 60 61 62 63
最后我们重置索引:
>>> pivoted = pivoted.reset_index()
>>> pivoted
cid price1 price2 price3 price4 price5 price6 price7 price8
0 0 0 1 2 3 4 5 6 7
1 1 8 9 10 11 12 13 14 15
2 2 16 17 18 19 20 21 22 23
3 3 24 25 26 27 28 29 30 31
4 4 32 33 34 35 36 37 38 39
5 5 40 41 42 43 44 45 46 47
6 6 48 49 50 51 52 53 54 55
7 7 56 57 58 59 60 61 62 63
这是@DSM 方法的快速变体,使用 unstack()
。我将借用@DSM 的示例数据,以便比较 pivot()
与 unstack()
:
的结果
>>> df = pd.DataFrame({"cid": np.arange(64)//8, "price": np.arange(64)})
>>> df['num'] = df.groupby('cid').cumcount()
>>> df.set_index(['cid','num']).unstack()
price
num 0 1 2 3 4 5 6 7
cid
0 0 1 2 3 4 5 6 7
1 8 9 10 11 12 13 14 15
2 16 17 18 19 20 21 22 23
3 24 25 26 27 28 29 30 31
4 32 33 34 35 36 37 38 39
5 40 41 42 43 44 45 46 47
6 48 49 50 51 52 53 54 55
7 56 57 58 59 60 61 62 63
使用 Pandas 我在我的数据框上调用了 groupby 并获得了以下内容:
>>>grouped = df.groupby(['cid'])
for key, gr in grouped:
print(key)
print(gr)
Out: cid price
121 12
121 10
121 9
我想让每个组像这样旋转:
cid price1 price2 price3
121 12 10 9
使用 Pandas 执行此操作的正确方法是什么?
假设您的框架看起来像
>>> df = pd.DataFrame({"cid": np.arange(64)//8, "price": np.arange(64)})
>>> df.head()
cid price
0 0 0
1 0 1
2 0 2
3 0 3
4 0 4
那我想你可以通过组合groupby
和pivot
得到你想要的:
df = pd.DataFrame({"cid": np.arange(64)//8, "price": np.arange(64)})
df["num"] = df.groupby("cid")["price"].cumcount() + 1
pivoted = df.pivot(index="cid", columns="num", values="price")
pivoted.columns = "price" + pivoted.columns.astype(str)
pivoted = pivoted.reset_index()
这给出了
>>> pivoted
cid price1 price2 price3 price4 price5 price6 price7 price8
0 0 0 1 2 3 4 5 6 7
1 1 8 9 10 11 12 13 14 15
2 2 16 17 18 19 20 21 22 23
3 3 24 25 26 27 28 29 30 31
4 4 32 33 34 35 36 37 38 39
5 5 40 41 42 43 44 45 46 47
6 6 48 49 50 51 52 53 54 55
7 7 56 57 58 59 60 61 62 63
旁白:在字符串末尾粘贴数字,例如"price5",通常不是一个好主意。你不能真正与他们合作,他们不会按照你期望的方式排序,等等。
首先,我们创建一个列,显示某物在价格中的索引:
>>> df["num"] = df.groupby("cid")["price"].cumcount() + 1
>>> df.head(10)
cid price num
0 0 0 1
1 0 1 2
2 0 2 3
[etc.]
7 0 7 8
8 1 8 1
9 1 9 2
然后我们pivot
:
>>> pivoted = df.pivot(index="cid", columns="num", values="price")
>>> pivoted
num 1 2 3 4 5 6 7 8
cid
0 0 1 2 3 4 5 6 7
1 8 9 10 11 12 13 14 15
2 16 17 18 19 20 21 22 23
3 24 25 26 27 28 29 30 31
4 32 33 34 35 36 37 38 39
5 40 41 42 43 44 45 46 47
6 48 49 50 51 52 53 54 55
7 56 57 58 59 60 61 62 63
然后我们修复列:
>>> pivoted.columns = "price" + pivoted.columns.astype(str)
>>> pivoted
price1 price2 price3 price4 price5 price6 price7 price8
cid
0 0 1 2 3 4 5 6 7
1 8 9 10 11 12 13 14 15
2 16 17 18 19 20 21 22 23
3 24 25 26 27 28 29 30 31
4 32 33 34 35 36 37 38 39
5 40 41 42 43 44 45 46 47
6 48 49 50 51 52 53 54 55
7 56 57 58 59 60 61 62 63
最后我们重置索引:
>>> pivoted = pivoted.reset_index()
>>> pivoted
cid price1 price2 price3 price4 price5 price6 price7 price8
0 0 0 1 2 3 4 5 6 7
1 1 8 9 10 11 12 13 14 15
2 2 16 17 18 19 20 21 22 23
3 3 24 25 26 27 28 29 30 31
4 4 32 33 34 35 36 37 38 39
5 5 40 41 42 43 44 45 46 47
6 6 48 49 50 51 52 53 54 55
7 7 56 57 58 59 60 61 62 63
这是@DSM 方法的快速变体,使用 unstack()
。我将借用@DSM 的示例数据,以便比较 pivot()
与 unstack()
:
>>> df = pd.DataFrame({"cid": np.arange(64)//8, "price": np.arange(64)})
>>> df['num'] = df.groupby('cid').cumcount()
>>> df.set_index(['cid','num']).unstack()
price
num 0 1 2 3 4 5 6 7
cid
0 0 1 2 3 4 5 6 7
1 8 9 10 11 12 13 14 15
2 16 17 18 19 20 21 22 23
3 24 25 26 27 28 29 30 31
4 32 33 34 35 36 37 38 39
5 40 41 42 43 44 45 46 47
6 48 49 50 51 52 53 54 55
7 56 57 58 59 60 61 62 63