使用上一行的值根据 groupby 在 df 中插入行
Inserting rows in df based on groupby using value of previous row
我需要根据 groupby 类型的列星期插入行,在某些情况下,我在数据框中间的不同位置缺少星期,我想插入行以填充缺少的行作为最后一个现有行的副本,在本例中为第 7 周的副本以填充第 8 周和第 9 周,第 11 周的副本以填充第 12、13 和 14 周的行:在此 table 您可以看到从第 7 周跳到第 10 周,从第 11 周跳到第 15 周:
完美的输出如下:最终的 table 在列 week 中具有增量值正确的方法:
下面是我的代码,它只插入一行,我很困惑为什么:
def middle_values(final : DataFrame) -> DataFrame:
finaltemp= pd.DataFrame()
out= pd.DataFrame()
for i in range(0, len(final)):
for f in range(1, 52 , 1):
if final.iat[i,8]== f and final.iat[i-1,8] != f-1 :
if final.iat[i,8] > final.iat[i-1,8] and final.iat[i,8] != (final.iat[i-1,8] - 1):
line = final.iloc[i-1]
c1 = final[0:i]
c2 = final[i:]
c1.loc[i]=line
concatinated = pd.concat([c1, c2])
concatinated.reset_index(inplace=True)
concatinated.iat[i,11] = concatinated.iat[i-1,11]
concatinated.iat[i,9]= f-1
finaltemp = finaltemp.append(concatinated)
if 'type' in finaltemp.columns:
for name, groups in finaltemp.groupby(["type"]):
weeks = range(groups['week'].min(), groups['week'].max()+1)
out = out.append(pd.merge(finaltemp, pd.Series(weeks, name='week'), how='right').ffill())
out.drop_duplicates(subset=['project', 'week'], keep = 'first', inplace=True)
out.drop_duplicates(inplace = True)
out.sort_values(["Budget: Budget Name", "Budget Week"], ascending = (False, True), inplace=True)
out.drop(['level_0'], axis = 1, inplace=True)
out.reset_index(inplace=True)
out.drop(['level_0'], axis = 1, inplace=True)
return out
else :
return final
对于你问题的第一部分。假设我们有一个如下所示的数据框:
df = DataFrame({"project":[1,1,1,2,2,2], "week":[1,3,4,1,2,4], "value":[12,22,18,17,18,23]})
我们可以创建一个新的多索引来获取我们需要的额外行
new_index = pd.MultiIndex.from_arrays([sorted([i for i in df['project'].unique()]*52),
[i for i in np.arange(1,53,1)]*df['project'].unique().shape[0]], names=['project', 'week'])
然后我们可以应用此索引来获取您需要的新数据框,并在新行中添加空白
df = df.set_index(['project', 'week']).reindex(new_index).reset_index().sort_values(['project', 'week'])
然后您需要使用 groupby 和转换应用前向填充(使用 ffill)或后向填充(使用 bfill)以获取所需行中的所需值。
我需要根据 groupby 类型的列星期插入行,在某些情况下,我在数据框中间的不同位置缺少星期,我想插入行以填充缺少的行作为最后一个现有行的副本,在本例中为第 7 周的副本以填充第 8 周和第 9 周,第 11 周的副本以填充第 12、13 和 14 周的行:在此 table 您可以看到从第 7 周跳到第 10 周,从第 11 周跳到第 15 周:
完美的输出如下:最终的 table 在列 week 中具有增量值正确的方法:
下面是我的代码,它只插入一行,我很困惑为什么:
def middle_values(final : DataFrame) -> DataFrame:
finaltemp= pd.DataFrame()
out= pd.DataFrame()
for i in range(0, len(final)):
for f in range(1, 52 , 1):
if final.iat[i,8]== f and final.iat[i-1,8] != f-1 :
if final.iat[i,8] > final.iat[i-1,8] and final.iat[i,8] != (final.iat[i-1,8] - 1):
line = final.iloc[i-1]
c1 = final[0:i]
c2 = final[i:]
c1.loc[i]=line
concatinated = pd.concat([c1, c2])
concatinated.reset_index(inplace=True)
concatinated.iat[i,11] = concatinated.iat[i-1,11]
concatinated.iat[i,9]= f-1
finaltemp = finaltemp.append(concatinated)
if 'type' in finaltemp.columns:
for name, groups in finaltemp.groupby(["type"]):
weeks = range(groups['week'].min(), groups['week'].max()+1)
out = out.append(pd.merge(finaltemp, pd.Series(weeks, name='week'), how='right').ffill())
out.drop_duplicates(subset=['project', 'week'], keep = 'first', inplace=True)
out.drop_duplicates(inplace = True)
out.sort_values(["Budget: Budget Name", "Budget Week"], ascending = (False, True), inplace=True)
out.drop(['level_0'], axis = 1, inplace=True)
out.reset_index(inplace=True)
out.drop(['level_0'], axis = 1, inplace=True)
return out
else :
return final
对于你问题的第一部分。假设我们有一个如下所示的数据框:
df = DataFrame({"project":[1,1,1,2,2,2], "week":[1,3,4,1,2,4], "value":[12,22,18,17,18,23]})
我们可以创建一个新的多索引来获取我们需要的额外行
new_index = pd.MultiIndex.from_arrays([sorted([i for i in df['project'].unique()]*52),
[i for i in np.arange(1,53,1)]*df['project'].unique().shape[0]], names=['project', 'week'])
然后我们可以应用此索引来获取您需要的新数据框,并在新行中添加空白
df = df.set_index(['project', 'week']).reindex(new_index).reset_index().sort_values(['project', 'week'])
然后您需要使用 groupby 和转换应用前向填充(使用 ffill)或后向填充(使用 bfill)以获取所需行中的所需值。