你能把.npy文件上传到h2o3而不先转换它们吗

Can you upload .npy files to h2o3 without converting them first

我们将数据存储为 .npy 文件。一个用于特征,另一个用于我们想要估算的所有目标(我们计划一次只选择一个目标列进行训练)。看起来 h2o 不支持 .npy (http://docs.h2o.ai/h2o/latest-stable/h2o-docs/getting-data-into-h2o.html#supported-file-formats),但我想知道是否有一种解决方法可以直接导入 .npy 文件,而不必将它们转换为 .csv 并且基本上必须加倍我们的存储 space。

当我将 .npy 作为 pandas 数据帧上传时,我会在 ncols = training_frame.ncols 处收到错误消息,说 DataFrame 对象没有属性 'ncols'。

您将需要转换它们(R 用户的 .rdata 文件的情况类似)。 (如果支持这样的二进制文件就好了,所以你可以尝试功能请求。)

严格来说,您不需要将存储空间翻倍 space:您可以将每个 npy 文件加载到 Python 客户端,然后使用:

d = h2o.H2OFrame(my_npy)

(我上次查看源码,这实际上会保存到一个临时的csv文件,然后导入那个文件,然后删除这个临时文件。)

该步骤是否会为您的整体模型训练增加任何重要时间取决于数据的大小、多节点集群以及您的客户端是否在集群中或世界的另一端。但是,对于非平凡的模型,训练时间总是比加载数据至少多一个数量级,因此不值得为加速它付出太多努力。