使用 S3 时支持 Parquet 作为输入/输出格式

Support for Parquet as an input / output format when working with S3

我看到很多问题描述了在 Spark 中使用 S3 时遇到的问题：

spark-1.4.1 saveAsTextFile to S3 is very slow on emr-4.0.0
Writing Spark checkpoints to S3 is too slow

许多具体描述了 Parquet 文件的问题：

Slow or incomplete saveAsParquetFile from EMR Spark to S3
Does Spark support Partition Pruning with Parquet Files
Fast Parquet row count in Spark

以及一些提到 Spark - S3 - Parquet 组合的其他问题的外部来源。这让我觉得无论是 S3 与 Spark 还是这个完整的组合都可能不是最好的选择。

我喜欢这里吗？谁能给个权威的解答解释一下：

以 S3 为重点的 Parquet 支持的当前状态。
Spark (SQL) 能否充分利用分区修剪、谓词下推（包括深度嵌套模式）和 Parquet 元数据等 Parquet 功能是否能在 S3（或兼容的存储解决方案）上按预期工作所有这些功能).
正在进行的开发并打开了 JIRA 票证。
这三者一起使用时，有什么配置选项需要注意吗？

很多问题都不是镶木地板特有的，但 S3 不是文件系统，尽管 API 试图让它看起来像这样。许多 nominally-low 成本操作需要多个 HTTPS 请求，从而导致延迟。

关于 JIRA

HADOOP-11694； S3A 第二阶段——Hadoop 2.8 中的一切。其中大部分已经在 HDP2.5 中，是的，它有显着的好处。
HADOOP-13204: 要遵循的待办事项列表。
关于spark（和hive），使用rename()来commit work是杀手锏。它用于任务和作业的末尾，以及检查点。您生成的输出越多，完成所需的时间就越长。 s3guard work 将包括一个 zero-rename 提交者，但将内容移至它需要注意和时间。

镶木地板？下推有效，但还有一些其他选项可以加快速度。我将他们和其他人列在： http://www.slideshare.net/steve_l/apache-spark-and-object-stores