火花 3.0 中的 glob

glob in spark 3.0

我曾经运行 glob 来获取 Spark 2.0+ 下的文件路径。

glob.glob("/dbfs/mnt/.../*/Acquisition*.txt")

升级到Spark 3.0后,此命令无效。你知道为什么吗?

检查 python 3.8 版本的 documentation 与 python 2.7

版本有点不同

您应该使用 ** 作为递归路径,并且还必须打开选项 recursive=True。那么,

glob.glob('/path/from/root/**/Acquisition*.txt', recursive=True)