Dataflow SparkPipelineRunner - 有可用的示例吗?
Dataflow SparkPipelineRunner - any available examples?
是否有人有使用 Cloudera SparkPipielineRunner
执行(在集群上)使用 Dataflow SDK 编写的管道的工作示例?
我在 Dataflow or Spark-Dataflow github 存储库中看不到任何内容。
我们正在尝试评估 运行 我们在 Spark 集群上的管道是否会给我们带来超过 运行 在 GCP 数据流服务上的性能提升。
Beam 网站上有使用 Beam Spark Runner 的示例:https://beam.apache.org/documentation/runners/spark/。
你要的依赖是:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-spark</artifactId>
<version>0.3.0-incubating</version>
</dependency>
要 运行 针对独立集群只需 运行:
spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner
是否有人有使用 Cloudera SparkPipielineRunner
执行(在集群上)使用 Dataflow SDK 编写的管道的工作示例?
我在 Dataflow or Spark-Dataflow github 存储库中看不到任何内容。
我们正在尝试评估 运行 我们在 Spark 集群上的管道是否会给我们带来超过 运行 在 GCP 数据流服务上的性能提升。
Beam 网站上有使用 Beam Spark Runner 的示例:https://beam.apache.org/documentation/runners/spark/。
你要的依赖是:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-spark</artifactId>
<version>0.3.0-incubating</version>
</dependency>
要 运行 针对独立集群只需 运行:
spark-submit --class com.beam.examples.BeamPipeline --master spark://HOST:PORT target/beam-examples-1.0.0-shaded.jar --runner=SparkRunner