使用 S3 时支持 Parquet 作为输入/输出格式

Support for Parquet as an input / output format when working with S3

我看到很多问题描述了在 Spark 中使用 S3 时遇到的问题:

许多具体描述了 Parquet 文件的问题:

以及一些提到 Spark - S3 - Parquet 组合的其他问题的外部来源。这让我觉得无论是 S3 与 Spark 还是这个完整的组合都可能不是最好的选择。

我喜欢这里吗?谁能给个权威的解答解释一下:

很多问题都不是镶木地板特有的,但 S3 不是文件系统,尽管 API 试图让它看起来像这样。许多 nominally-low 成本操作需要多个 HTTPS 请求,从而导致延迟。

关于 JIRA

  • HADOOP-11694; S3A 第二阶段——Hadoop 2.8 中的一切。其中大部分已经在 HDP2.5 中,是的,它有显着的好处。
  • HADOOP-13204: 要遵循的待办事项列表。
  • 关于spark(和hive),使用rename()来commit work是杀手锏。它用于任务和作业的末尾,以及检查点。您生成的输出越多,完成所需的时间就越长。 s3guard work 将包括一个 zero-rename 提交者,但将内容移至它需要注意和时间。

镶木地板?下推有效,但还有一些其他选项可以加快速度。我将他们和其他人列在: http://www.slideshare.net/steve_l/apache-spark-and-object-stores