Python/Dask 支持的分布式文件系统

Distributed file systems supported by Python/Dask

Dask支持哪些分布式文件系统?具体来说,可以从哪些文件系统读取 dask.dataframe's?从 Dask 文档中,我可以看到肯定支持 HDFS。是否支持任何其他分布式文件系统,例如头孢等?

我可以在这里找到一些关于支持其他文件系统的想法的讨论:https://github.com/dask/distributed/issues/33 但没有最终结论,除了 HDFS 比其他选项"nastier"。

感谢您的帮助!

最简单的答案是,如果您可以将文件系统挂载到每个节点上,即它可以作为本地文件系统访问,那么您可以使用任何分布式系统——无需对原始位置进行任何性能优化任何给定的文件块。

如果您可以从元数据服务获得数据位置(这对 ceph 来说是正确的),您可以将加载任务限制为 运行 仅在数据驻留的机器上。这没有实现,但从用户端来看可能不会太复杂。过去为 hdfs 做过类似的事情,但我们发现优化并不能证明代码的额外复杂性是合理的。

有关 Dask 当前支持哪些远程文件系统以及如何支持其他文件系统的文档可在此处获取: