如何捕获有关 HDFS 上文件的信息

How do I capture information about files that are on HDFS

我想捕获有关 HDFS 中每个文件的某些信息,例如:名称、创建日期、修改和上次访问。我考虑过使用 Python OS 模块来做,但我不确定是否可行以及如何做。我想到的另一种选择是使用 HDFS 模块本身,但是互联网上关于它的信息很少,因此更加困难。

有人知道我会怎么做吗?

HDFS 不是您的计算机可以理解的普通文件系统。因此,os 模块将无法对存储在 HDFS 中的文件执行任何操作。

你可以试试snakebite, which is a pure Python client for HDFS. There is an example on how to list files in HDFS using snakebite here