Pandas: 如何将具有多个值的单元格转换为多行?
Pandas: how to convert a cell with multiple values to multiple rows?
我有一个这样的 DataFrame:
Name asn count
Org1 asn1,asn2 1
org2 asn3 2
org3 asn4,asn5 5
我想将我的 DataFrame 转换为如下所示:
Name asn count
Org1 asn1 1
Org1 asn2 1
org2 asn3 2
org3 asn4 5
Org3 asn5 5
我知道使用以下代码来处理两列,但我不确定如何处理三列。
df2 = df.asn.str.split(',').apply(pd.Series)
df2.index = df.Name
df2 = df2.stack().reset_index('Name')
有人可以帮忙吗?
从同样的想法出发,您可以为 df2
设置一个 MultiIndex,然后堆叠。例如:
>>> df2 = df.asn.str.split(',').apply(pd.Series)
>>> df2.index = df.set_index(['Name', 'count']).index
>>> df2.stack().reset_index(['Name', 'count'])
Name count 0
0 Org1 1 asn1
1 Org1 1 asn2
0 org2 2 asn3
0 org3 5 asn4
1 org3 5 asn5
然后您可以重命名该列并设置您选择的索引。
替代方案:
import pandas as pd
from StringIO import StringIO
ctn = '''Name asn count
Org1 asn1,asn2 1
org2 asn3 2
org3 asn4,asn5 5'''
df = pd.read_csv(StringIO(ctn), sep='\s*', engine='python')
s = df['asn'].str.split(',').apply(pd.Series, 1).stack()
s.index = s.index.droplevel(-1)
s.name = 'asn'
del df['asn']
df = df.join(s)
print df
结果:
Name count asn
0 Org1 1 asn1
0 Org1 1 asn2
1 org2 2 asn3
2 org3 5 asn4
2 org3 5 asn5
我有一个这样的 DataFrame:
Name asn count
Org1 asn1,asn2 1
org2 asn3 2
org3 asn4,asn5 5
我想将我的 DataFrame 转换为如下所示:
Name asn count
Org1 asn1 1
Org1 asn2 1
org2 asn3 2
org3 asn4 5
Org3 asn5 5
我知道使用以下代码来处理两列,但我不确定如何处理三列。
df2 = df.asn.str.split(',').apply(pd.Series)
df2.index = df.Name
df2 = df2.stack().reset_index('Name')
有人可以帮忙吗?
从同样的想法出发,您可以为 df2
设置一个 MultiIndex,然后堆叠。例如:
>>> df2 = df.asn.str.split(',').apply(pd.Series)
>>> df2.index = df.set_index(['Name', 'count']).index
>>> df2.stack().reset_index(['Name', 'count'])
Name count 0
0 Org1 1 asn1
1 Org1 1 asn2
0 org2 2 asn3
0 org3 5 asn4
1 org3 5 asn5
然后您可以重命名该列并设置您选择的索引。
替代方案:
import pandas as pd
from StringIO import StringIO
ctn = '''Name asn count
Org1 asn1,asn2 1
org2 asn3 2
org3 asn4,asn5 5'''
df = pd.read_csv(StringIO(ctn), sep='\s*', engine='python')
s = df['asn'].str.split(',').apply(pd.Series, 1).stack()
s.index = s.index.droplevel(-1)
s.name = 'asn'
del df['asn']
df = df.join(s)
print df
结果:
Name count asn
0 Org1 1 asn1
0 Org1 1 asn2
1 org2 2 asn3
2 org3 5 asn4
2 org3 5 asn5