无论如何要在 foreachpartition 中使用 dbutils.fs 命令?

Anyway to use dbutils.fs commands inside a foreachpartition?

我正在尝试在 adls gen2 中移动文件,标准 dbtutils.fs.mv 对于任务来说非常慢,因为文件数远远超过 200k。我在考虑并行化这个过程,所以我从文件列表中创建了一个 RDD,并尝试使用 foreachPartition 并在 dbutils.fs.mv 中使用。当我尝试这样做时,它会抛出错误 - java.io.IOException: No FileSystem for scheme: wasbs

也尝试使用 sc.hadoopConfiguration.set("fs.wasbs.impl","org.apache.hadoop.fs.azure.NativeAzureFileSystem") 但这只会在 Azure 本机文件系统的行上产生另一个错误。

也欢迎任何其他实现此目的的方法。

提前致谢。

问题不在于 foreachPartition,而是在使用 ADLS Gen2 时,它在装载的存储上运行良好。