火花 3.0 中的 glob
glob in spark 3.0
我曾经运行 glob 来获取 Spark 2.0+ 下的文件路径。
glob.glob("/dbfs/mnt/.../*/Acquisition*.txt")
升级到Spark 3.0后,此命令无效。你知道为什么吗?
检查 python 3.8 版本的 documentation 与 python 2.7
版本有点不同
您应该使用 **
作为递归路径,并且还必须打开选项 recursive=True
。那么,
glob.glob('/path/from/root/**/Acquisition*.txt', recursive=True)
我曾经运行 glob 来获取 Spark 2.0+ 下的文件路径。
glob.glob("/dbfs/mnt/.../*/Acquisition*.txt")
升级到Spark 3.0后,此命令无效。你知道为什么吗?
检查 python 3.8 版本的 documentation 与 python 2.7
版本有点不同您应该使用 **
作为递归路径,并且还必须打开选项 recursive=True
。那么,
glob.glob('/path/from/root/**/Acquisition*.txt', recursive=True)