熊猫循环大尺寸文件如何获得块的数量？

Question

我正在使用 pandas 读取一个大文件，文件大小为 11 GB

chunksize=100000
for df_ia in pd.read_csv(file, chunksize=n,
                         iterator=True, low_memory=False):

我的问题是如何获取所有块的数量，现在我可以做的是设置一个索引并一个一个地计数，但这看起来不是一个聪明的方法:

index = 0
chunksize=100000
for df_ia in pd.read_csv(file, chunksize=n,
                         iterator=True, low_memory=False):
    index + =1

所以在循环整个大小文件后，最终索引将是所有块的数量，但是有没有更快的方法直接获取它？

Answer 1

您可以像这样使用 enumerate 函数：

for i, df_ia in enumerate(pd.read_csv(file, chunksize=5,
                                      iterator=True, low_memory=False)):

那么在你完成迭代后，i的值将是len(number_of_dataframes)-1。

panda looping large size file how to get the amount of chunks?