Hdfs 查找小于一定大小的文件

Hdfs find files below certain size

有没有办法在 Hdfs 中列出小于特定大小的文件。使用命令行甚至 spark 脚本? Scala/spark 会很棒,因为与命令行相比,它可能 运行 更快。 我查看了 Apache 文件系统文档,但找不到太多信息

您可以使用以下命令显示大于 1KB 的文件

hdfs dfs -ls -R / | awk ' > 1000'

同样,您可以使用下面的脚本来显示小于1KB的文件

hdfs dfs -ls -R / | awk ' < 1000'

希望对您有所帮助。