如何使用 fs.HadoopFileSystem 对 HDFS 文件进行常见操作?
How to do common operations with HDFS files using fs.HadoopFileSystem?
我需要使用 python3 对 HDFS 目录执行一些普通操作。
如mkdir
,chmod
,chown
, test
如果目录存在。
我尝试使用 pyarrow,因为它是官方 python 客户端。
因此,我查看了 throw new API documentation,但找不到任何有用的方法。
legacy HDFS API 的用法允许这样做,但已弃用。
谁能回答,如何使用新的 API 进行我提到的操作?
pyarrow.HadoopFileSystem.mkdir
等价于pyarrow.fs.HadoopFileSystem.create_dir
没有pyarrow.HadoopFileSystem.test
但是有pyarrow.fs.HadoopFileSystem.get_file_info
chown
或 chmod
没有等价物。新文件系统 API 的动机是“更高级别的 Arrow 模块所需的最小操作集是什么?(例如数据集 API)”。添加到新 API 的每个方法都必须添加到每个子实现,并且大多数其他文件系统都有自己的 python 绑定。
您是否考虑过独立的 hdfs 软件包?
我需要使用 python3 对 HDFS 目录执行一些普通操作。
如mkdir
,chmod
,chown
, test
如果目录存在。
我尝试使用 pyarrow,因为它是官方 python 客户端。
因此,我查看了 throw new API documentation,但找不到任何有用的方法。 legacy HDFS API 的用法允许这样做,但已弃用。
谁能回答,如何使用新的 API 进行我提到的操作?
pyarrow.HadoopFileSystem.mkdir
等价于pyarrow.fs.HadoopFileSystem.create_dir
没有pyarrow.HadoopFileSystem.test
但是有pyarrow.fs.HadoopFileSystem.get_file_info
chown
或 chmod
没有等价物。新文件系统 API 的动机是“更高级别的 Arrow 模块所需的最小操作集是什么?(例如数据集 API)”。添加到新 API 的每个方法都必须添加到每个子实现,并且大多数其他文件系统都有自己的 python 绑定。
您是否考虑过独立的 hdfs 软件包?