如何优化 pandas 数据帧的分块?

How to optimize chunking of pandas dataframe?

我需要将我的数据集分成块,我目前使用以下简单代码来完成:

    cases = []
    for i in set(df['key']):
        cases.append(df[df['key']==i].copy())

但是我的数据集很大,这最终需要几个小时,所以我想知道是否有办法使用多线程来加速它?或者是否有任何其他方法可以使它更快?

我相当确定您想要按唯一键分组。使用内置功能来执行此操作。

cases = list(df.groupby('key'))