Dataprep 与 Dataflow 与 Dataproc

Dataprep vs Dataflow vs Dataproc

要进行源数据准备、数据转换或数据清理,我们应该在什么场景下使用Dataprep vs Dataflow vs Dataproc?

数据 preparation/transformation/cleaning 任务都可以看作是 ETL 过程,可以用您提到的任何产品实现。 This older answer covers the basics of the Dataflow vs Dataproc question and includes this link 总结了在这三者之间进行选择时应牢记的事项。

简而言之,您应该考虑熟悉程度(您是否已经使用过 Hadoop 生态系统工具?beam 编程模型?您愿意通过 UI 工作吗?)和所需的控制级别(dataproc 允许更多对集群的控制、数据流和数据准备是完全托管的服务)。

更多好读物:

Dataproc 和 Dataflow 都是 google 云上的数据处理服务。这两个系统的共同点是它们都可以处理批处理或流数据。两者都有更易于使用的工作流模板。 但以下是两者的区别

Dataproc 旨在 运行 群集上。这使得它与 Apache Hadoop、hive 和 spark 兼容。它创建集群的速度明显更快,并且可以在不中断 运行ning 作业的情况下自动扩展集群。

如果您的数据没有使用 spark 或 Hadoop 实现,Dataflow 会更好。它不 运行 集群,而是基于并行数据处理。由于此类数据在多个微处理器上进行拆分处理以减少处理时间。

关于 Dataproc 的重要说明是,Dataprep 提供数据清理并自动识别数据中的异常。它与 Cloud Storage、BigTable 和 BigQuery

集成