Spark 和远程属性文件

Spark and remote properties-files

我尝试启动一个启动 spark 的 oozie。我需要为它指定一个 properties-files 。但是这个属性文件必须在 hdfs

spark-submit --properties-files hdfs:/user/lele/app.properties ....

无效。 您有解决此问题的想法吗?谢谢

直接来自 Oozie documentation for Spark extension

Spark Action Schema Version 0.2
...
   <xs:element name="file" type="xs:string" minOccurs="0" maxOccurs="unbounded"/>

(好像在 V0.1 中忘记了?!?那是个错误...)

并且在 Oozie documentation for core Oozie Workflow features

The file, archive elements make available, to map-reduce jobs, files and archives ... Files specified with the file element, will be symbolic links in the home directory of the task.
Refer to Hadoop distributed cache documentation for details more details on files and archives.

不幸的是,这只是噪音,并没有解释 file 实际做了什么:它 将 HDFS 文件下载到 YARN 容器中 运行 Oozie 操作,并使其在当前工作目录中可用。
在选项中,您可以重命名文件,例如<file>/user/dummy/wtf.conf.V5.2.0#wtf.conf</file> 将获取 HDFS 上的特定版本,并以通用名称将其提供给作业。



推荐阅读:Hooked on Hadoop tutorial series about Oozie。现在有点老了,但仍然是 Oozie 在实践中可以做什么的最好概述。