Pandas 子类 DataFrame 的 groupby、resample 等

Pandas groupby, resample, etc for subclassed DataFrame

注意: 下面的线程提示了一个拉取请求,最终合并到 v1.10 中。此问题现已解决。

我正在使用一个子类化的 DataFrame,这样我就可以更方便地访问一些特定于我的用例的转换方法和元数据。大多数 DataFrame 操作都按预期工作,因为它们 return 是子类的实例,而不是 pandas.DataFrame 的实例。但是,像 DataFrame.groupbyDataFrame.resample 这样的聚合操作似乎把事情搞砸了。

这是一个错误,还是在定义我的子类时遗漏了什么?

下面是一个最小的例子,在 pandas 0.25.1:

上测试
class MyDataFrame(pd.DataFrame):
    @property
    def _constructor(self):
        return MyDataFrame

dates = pd.date_range('2019', freq='D', periods=365)
my_df = MyDataFrame(range(len(dates)), index=dates)

assert isinstance(my_df, MyDataFrame)
# Success!

assert isinstance(my_df.diff(), MyDataFrame)
# Success!

assert isinstance(my_df.sample(10), MyDataFrame)
# Success!

assert isinstance(my_df[:10], MyDataFrame)
# Success!

assert isinstance(my_df.resample("D").sum(), MyDataFrame)
# AssertionError

assert isinstance(my_df.groupby(df.index.month).sum(), MyDataFrame)
# AssertionError

我不知道它本身是不是 "bug",但我同意无论如何都应该更改它。如果你看一下 groupby 类型对象的一些 source code,你会看到很多硬编码的 return DataFrame(...)return Series(...)

正如您正确指出的那样,Pandas 对象可以使用三种方法来构建自己的新版本:

  • _construct() 创建相同类型的对象
  • _construct_sliced() 从类似数据框的对象创建类似系列的对象
  • _construct_expanddim() 从类似系列的对象创建类似数据框的对象

这些可以用来代替 core/groupby/generic.py 中的硬编码类型,这很容易做到,因为 groupby 对象将起始 NDFrame 存储为属性 obj.

可以在我的叉子上找到实现了这些更改的分支:https://github.com/alkasm/pandas/tree/groupby-preserve-subclass