连接两个大 pandas.HDFStore HDF5 文件
Concatenate two big pandas.HDFStore HDF5 files
这个问题在某种程度上与 "Concatenate a large number of HDF5 files" 有关。
我有几个巨大的 HDF5 文件(压缩后约 20GB),RAM 放不下。他们每个人都存储几个相同格式且索引不重叠的 pandas.DataFrame
。
我想将它们连接成一个 HDF5 文件,所有数据帧都正确连接。一种方法是逐块读取它们中的每一个,然后保存到一个文件中,但这确实会花费很多时间。
是否有任何特殊的工具或方法可以在不遍历文件的情况下执行此操作?
请参阅 odo
项目(以前的 into
)的文档 here。请注意,如果您使用 into
库,则参数顺序已切换(这是更改名称的动机,以避免混淆!)
你基本上可以做到:
from odo import odo
odo('hdfstore://path_store_1::table_name',
'hdfstore://path_store_new_name::table_name')
像这样执行多个操作将追加到 rhs 存储区。
这将自动为您执行区块操作。
这个问题在某种程度上与 "Concatenate a large number of HDF5 files" 有关。
我有几个巨大的 HDF5 文件(压缩后约 20GB),RAM 放不下。他们每个人都存储几个相同格式且索引不重叠的 pandas.DataFrame
。
我想将它们连接成一个 HDF5 文件,所有数据帧都正确连接。一种方法是逐块读取它们中的每一个,然后保存到一个文件中,但这确实会花费很多时间。
是否有任何特殊的工具或方法可以在不遍历文件的情况下执行此操作?
请参阅 odo
项目(以前的 into
)的文档 here。请注意,如果您使用 into
库,则参数顺序已切换(这是更改名称的动机,以避免混淆!)
你基本上可以做到:
from odo import odo
odo('hdfstore://path_store_1::table_name',
'hdfstore://path_store_new_name::table_name')
像这样执行多个操作将追加到 rhs 存储区。
这将自动为您执行区块操作。