使用上一行的值根据 groupby 在 df 中插入行

Question

我需要根据 groupby 类型的列星期插入行，在某些情况下，我在数据框中间的不同位置缺少星期，我想插入行以填充缺少的行作为最后一个现有行的副本，在本例中为第 7 周的副本以填充第 8 周和第 9 周，第 11 周的副本以填充第 12、13 和 14 周的行：在此 table 您可以看到从第 7 周跳到第 10 周，从第 11 周跳到第 15 周：

完美的输出如下：最终的 table 在列 week 中具有增量值正确的方法：

下面是我的代码，它只插入一行，我很困惑为什么：

def middle_values(final : DataFrame) -> DataFrame:
    finaltemp= pd.DataFrame()
    out= pd.DataFrame()
    for i in range(0, len(final)):
        for f in range(1, 52 , 1):
            if final.iat[i,8]==  f and final.iat[i-1,8] != f-1 :
               if final.iat[i,8] > final.iat[i-1,8] and  final.iat[i,8] != (final.iat[i-1,8] - 1):
                    line = final.iloc[i-1]
                    c1 = final[0:i]
                    c2 = final[i:]
                    c1.loc[i]=line
                    concatinated = pd.concat([c1, c2])
                    concatinated.reset_index(inplace=True)
                    concatinated.iat[i,11] = concatinated.iat[i-1,11]
                    concatinated.iat[i,9]= f-1
                    finaltemp = finaltemp.append(concatinated)
    
    if 'type' in finaltemp.columns:
      for name, groups in finaltemp.groupby(["type"]):
        weeks = range(groups['week'].min(), groups['week'].max()+1)
        out = out.append(pd.merge(finaltemp, pd.Series(weeks, name='week'), how='right').ffill())
      out.drop_duplicates(subset=['project', 'week'], keep = 'first', inplace=True)
      out.drop_duplicates(inplace = True)
      out.sort_values(["Budget: Budget Name", "Budget Week"], ascending = (False, True), inplace=True)
        out.drop(['level_0'], axis = 1, inplace=True)
        out.reset_index(inplace=True)
        out.drop(['level_0'], axis = 1, inplace=True)
        return out
    else :
        return final

Answer 1

对于你问题的第一部分。假设我们有一个如下所示的数据框：

df = DataFrame({"project":[1,1,1,2,2,2], "week":[1,3,4,1,2,4], "value":[12,22,18,17,18,23]})

我们可以创建一个新的多索引来获取我们需要的额外行

new_index = pd.MultiIndex.from_arrays([sorted([i for i in df['project'].unique()]*52), 
                           [i for i in np.arange(1,53,1)]*df['project'].unique().shape[0]], names=['project', 'week'])

然后我们可以应用此索引来获取您需要的新数据框，并在新行中添加空白

df = df.set_index(['project', 'week']).reindex(new_index).reset_index().sort_values(['project', 'week'])

然后您需要使用 groupby 和转换应用前向填充（使用 ffill）或后向填充（使用 bfill）以获取所需行中的所需值。

使用上一行的值根据 groupby 在 df 中插入行

Inserting rows in df based on groupby using value of previous row

python

missing-data

dataframe

pandas