HDFStore.select 中的迭代器和块大小:"Memory error"

Iterator and chunksize in HDFStore.select: "Memory error"

据我了解,HDFStore.select 用于从大型数据集中进行选择的工具。但是,当尝试使用 chunksizeiterator=True 遍历块时,一旦基础数据集足够大,迭代器本身就会变成一个非常大的对象,我不明白 为什么 迭代器对象很大,它包含了什么样的信息,非要变得这么大。

我有一个非常大的 HDFStore 结构(70 亿行,磁盘上 420 GB),我想按块迭代:

iterator = HDFStore.select('df', iterator=True, chunksize=chunksize)

for i, chunk in enumerate(iterator):
    # some code to apply to each chunk

当我 运行 此代码用于相对较小的文件时 - 一切正常。 但是,当我尝试将它应用于 70 亿行数据库时,计算迭代器时得到 Memory Error。我有 32 GB 内存。

我想要一个生成器来随时随地创建块,它不会在 RAM 中存储太多内容,例如:

iteratorGenerator = lambda: HDFStore.select('df', iterator=True, chunksize=chunksize)

for i, chunk in enumerate(iteratorGenerator):
    # some code to apply to each chunk

iteratorGenerator 不可迭代,所以这也不起作用。

我可能会在 startstop 行上循环 HDFStore.select,但我认为应该有一种更优雅的迭代方式。

我对一个(仅)30GB 的文件有同样的问题,显然你可以通过强制垃圾收集器完成它的工作来解决它......收集! :P PS:此外,您不需要 lambda,select 调用将 return 一个迭代器,只需循环它,就像您在第一个代码块中所做的那样。

with pd.HDFStore(file_path, mode='a') as store:
    # All you need is the chunksize
    # not the iterator=True
    iterator = store.select('df', chunksize=chunksize)

    for i, chunk in enumerate(iterator):

        # some code to apply to each chunk

        # magic line, that solved my memory problem
        # You also need "import gc" for this
        gc.collect()