使用 S3 时支持 Parquet 作为输入/输出格式
Support for Parquet as an input / output format when working with S3
我看到很多问题描述了在 Spark 中使用 S3 时遇到的问题:
- spark-1.4.1 saveAsTextFile to S3 is very slow on emr-4.0.0
- Writing Spark checkpoints to S3 is too slow
许多具体描述了 Parquet 文件的问题:
- Slow or incomplete saveAsParquetFile from EMR Spark to S3
- Does Spark support Partition Pruning with Parquet Files
- Fast Parquet row count in Spark
以及一些提到 Spark - S3 - Parquet 组合的其他问题的外部来源。这让我觉得无论是 S3 与 Spark 还是这个完整的组合都可能不是最好的选择。
我喜欢这里吗?谁能给个权威的解答解释一下:
- 以 S3 为重点的 Parquet 支持的当前状态。
- Spark (SQL) 能否充分利用分区修剪、谓词下推(包括深度嵌套模式)和 Parquet 元数据等 Parquet 功能是否能在 S3(或兼容的存储解决方案)上按预期工作所有这些功能).
- 正在进行的开发并打开了 JIRA 票证。
- 这三者一起使用时,有什么配置选项需要注意吗?
很多问题都不是镶木地板特有的,但 S3 不是文件系统,尽管 API 试图让它看起来像这样。许多 nominally-low 成本操作需要多个 HTTPS 请求,从而导致延迟。
关于 JIRA
- HADOOP-11694; S3A 第二阶段——Hadoop 2.8 中的一切。其中大部分已经在 HDP2.5 中,是的,它有显着的好处。
- HADOOP-13204: 要遵循的待办事项列表。
- 关于spark(和hive),使用
rename()
来commit work是杀手锏。它用于任务和作业的末尾,以及检查点。您生成的输出越多,完成所需的时间就越长。 s3guard work 将包括一个 zero-rename 提交者,但将内容移至它需要注意和时间。
镶木地板?下推有效,但还有一些其他选项可以加快速度。我将他们和其他人列在:
http://www.slideshare.net/steve_l/apache-spark-and-object-stores
我看到很多问题描述了在 Spark 中使用 S3 时遇到的问题:
- spark-1.4.1 saveAsTextFile to S3 is very slow on emr-4.0.0
- Writing Spark checkpoints to S3 is too slow
许多具体描述了 Parquet 文件的问题:
- Slow or incomplete saveAsParquetFile from EMR Spark to S3
- Does Spark support Partition Pruning with Parquet Files
- Fast Parquet row count in Spark
以及一些提到 Spark - S3 - Parquet 组合的其他问题的外部来源。这让我觉得无论是 S3 与 Spark 还是这个完整的组合都可能不是最好的选择。
我喜欢这里吗?谁能给个权威的解答解释一下:
- 以 S3 为重点的 Parquet 支持的当前状态。
- Spark (SQL) 能否充分利用分区修剪、谓词下推(包括深度嵌套模式)和 Parquet 元数据等 Parquet 功能是否能在 S3(或兼容的存储解决方案)上按预期工作所有这些功能).
- 正在进行的开发并打开了 JIRA 票证。
- 这三者一起使用时,有什么配置选项需要注意吗?
很多问题都不是镶木地板特有的,但 S3 不是文件系统,尽管 API 试图让它看起来像这样。许多 nominally-low 成本操作需要多个 HTTPS 请求,从而导致延迟。
关于 JIRA
- HADOOP-11694; S3A 第二阶段——Hadoop 2.8 中的一切。其中大部分已经在 HDP2.5 中,是的,它有显着的好处。
- HADOOP-13204: 要遵循的待办事项列表。
- 关于spark(和hive),使用
rename()
来commit work是杀手锏。它用于任务和作业的末尾,以及检查点。您生成的输出越多,完成所需的时间就越长。 s3guard work 将包括一个 zero-rename 提交者,但将内容移至它需要注意和时间。
镶木地板?下推有效,但还有一些其他选项可以加快速度。我将他们和其他人列在: http://www.slideshare.net/steve_l/apache-spark-and-object-stores