Python Pandas Groupby 根据索引重置值
Python Pandas Groupby Resetting Values Based on Index
所以我有一个数据框,其中包含一些我想要修复的错误信息:
import pandas as pd
tuples_index = [(1,1990), (2,1999), (2,2002), (3,1992), (3,1994), (3,1996)]
index = pd.MultiIndex.from_tuples(tuples_index, names=['id', 'FirstYear'])
df = pd.DataFrame([2007, 2006, 2006, 2000, 2000, 2000], index=index, columns=['LastYear'] )
df
Out[4]:
LastYear
id FirstYear
1 1990 2007
2 1999 2006
2002 2006
3 1992 2000
1994 2000
1996 2000
id 指的是一个企业,这个 DataFrame 是一个更大的数据帧的一小部分,显示了一个企业如何移动。每条记录都是一个独特的位置,我想捕捉它在那里的第一年和最后一年。目前的'LastYear'对于只有一条记录的商家是准确的,对于多条记录的商家的最新记录是准确的。 df 最后应该是这样的:
LastYear
id FirstYear
1 1990 2007
2 1999 2002
2002 2006
3 1992 1994
1994 1996
1996 2000
我把它弄到那里的方法非常笨重:
multirecord = df.groupby(level=0).filter(lambda x: len(x) > 1)
multirecord_grouped = multirecord.groupby(level=0)
ls = []
for _, group in multirecord_grouped:
levels = group.index.get_level_values(level=1).tolist() + [group['LastYear'].iloc[-1]]
ls += levels[1:]
multirecord['LastYear'] = pd.Series(ls, index=multirecord.index.copy())
final_joined = pd.concat([df.groupby(level=0).filter(lambda x: len(x) == 1),multirecord]).sort_index()
有没有更好的方法?
shift_year = lambda df: df.index.get_level_values('FirstYear').to_series().shift(-1)
df.groupby(level=0).apply(shift_year) \
.combine_first(df.LastYear).astype(int) \
.rename('LastYear').to_frame()
所以我有一个数据框,其中包含一些我想要修复的错误信息:
import pandas as pd
tuples_index = [(1,1990), (2,1999), (2,2002), (3,1992), (3,1994), (3,1996)]
index = pd.MultiIndex.from_tuples(tuples_index, names=['id', 'FirstYear'])
df = pd.DataFrame([2007, 2006, 2006, 2000, 2000, 2000], index=index, columns=['LastYear'] )
df
Out[4]:
LastYear
id FirstYear
1 1990 2007
2 1999 2006
2002 2006
3 1992 2000
1994 2000
1996 2000
id 指的是一个企业,这个 DataFrame 是一个更大的数据帧的一小部分,显示了一个企业如何移动。每条记录都是一个独特的位置,我想捕捉它在那里的第一年和最后一年。目前的'LastYear'对于只有一条记录的商家是准确的,对于多条记录的商家的最新记录是准确的。 df 最后应该是这样的:
LastYear
id FirstYear
1 1990 2007
2 1999 2002
2002 2006
3 1992 1994
1994 1996
1996 2000
我把它弄到那里的方法非常笨重:
multirecord = df.groupby(level=0).filter(lambda x: len(x) > 1)
multirecord_grouped = multirecord.groupby(level=0)
ls = []
for _, group in multirecord_grouped:
levels = group.index.get_level_values(level=1).tolist() + [group['LastYear'].iloc[-1]]
ls += levels[1:]
multirecord['LastYear'] = pd.Series(ls, index=multirecord.index.copy())
final_joined = pd.concat([df.groupby(level=0).filter(lambda x: len(x) == 1),multirecord]).sort_index()
有没有更好的方法?
shift_year = lambda df: df.index.get_level_values('FirstYear').to_series().shift(-1)
df.groupby(level=0).apply(shift_year) \
.combine_first(df.LastYear).astype(int) \
.rename('LastYear').to_frame()