每种格式的写作或阅读选项参考在哪里?
Where is the reference for options for writing or reading per format?
我使用的是 Spark 1.6.1。
我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS。虽然我们可以使用
df.write().orc(<path>)
我们宁愿做类似的事情
df.write().options(Map("format" -> "orc", "path" -> "/some_path")
这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。我们在哪里可以找到对可以传递到 DataFrameWriter 的选项的引用?我在此处的文档中找不到任何内容
Where can we find a reference to the options that can be passed into the DataFrameWriter?
最权威的答案是sources:
您可能会在文档中找到一些描述,但没有单个页面(可以从源自动生成以保持最新)。
原因是选项有意与格式实现分开,以便为每个用例提供您想要提供的灵活性(正如您正式指出的那样):
This is so that we have the flexibility to change the format or root path depending on the application that uses this helper library.
您的问题似乎与 How to know the file formats supported by Databricks? 我说的相似:
Where can I get the list of options supported for each file format?
这是不可能的,因为没有没有 API 来定义选项(就像在 Spark MLlib 中一样)。每种格式都是自己做的......不幸的是,你最好的选择是阅读文档或(更权威的)源代码。
我使用的是 Spark 1.6.1。
我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS。虽然我们可以使用
df.write().orc(<path>)
我们宁愿做类似的事情
df.write().options(Map("format" -> "orc", "path" -> "/some_path")
这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。我们在哪里可以找到对可以传递到 DataFrameWriter 的选项的引用?我在此处的文档中找不到任何内容
Where can we find a reference to the options that can be passed into the DataFrameWriter?
最权威的答案是sources:
您可能会在文档中找到一些描述,但没有单个页面(可以从源自动生成以保持最新)。
原因是选项有意与格式实现分开,以便为每个用例提供您想要提供的灵活性(正如您正式指出的那样):
This is so that we have the flexibility to change the format or root path depending on the application that uses this helper library.
您的问题似乎与 How to know the file formats supported by Databricks? 我说的相似:
Where can I get the list of options supported for each file format?
这是不可能的,因为没有没有 API 来定义选项(就像在 Spark MLlib 中一样)。每种格式都是自己做的......不幸的是,你最好的选择是阅读文档或(更权威的)源代码。