熊猫循环大尺寸文件如何获得块的数量?

panda looping large size file how to get the amount of chunks?

我正在使用 pandas 读取一个大文件,文件大小为 11 GB

chunksize=100000
for df_ia in pd.read_csv(file, chunksize=n,
                         iterator=True, low_memory=False):

我的问题是如何获取所有块的数量,现在我可以做的是设置一个索引并一个一个地计数,但这看起来不是一个聪明的方法:

index = 0
chunksize=100000
for df_ia in pd.read_csv(file, chunksize=n,
                         iterator=True, low_memory=False):
    index + =1

所以在循环整个大小文件后,最终索引将是所有块的数量,但是有没有更快的方法直接获取它?

您可以像这样使用 enumerate 函数:

for i, df_ia in enumerate(pd.read_csv(file, chunksize=5,
                                      iterator=True, low_memory=False)):

那么在你完成迭代后,i的值将是len(number_of_dataframes)-1