Google Data Fusion 能做和DataPrep 一样的数据清洗吗?
Can Google Data Fusion make the same data cleaning than DataPrep?
我想 运行 一个带有一些数据的机器学习模型。在使用这些数据训练模型之前,我需要对其进行处理,因此我一直在阅读一些处理方法。
首先创建一个 Dataflow 管道将其上传到 Bigquery 或 Google Cloud Storage,然后使用 Google Dataprep 创建一个数据管道来清理它。
我想做的另一种方法是数据融合,它可以更容易地创建数据管道,但我不知道,这是我的疑问,数据融合只是为了创建像 Dataflow 这样的管道,然后我必须使用 DataPrep 来清理数据,或者如果 Data Fusion 可以清理数据并准备将其放入我的机器学习模型中。
如果 Data Fusion 可以像 DataPrep 一样清理数据,我应该什么时候使用 DataPrep?
Datafusion 和 Dataprep 可以执行相同的操作。但是他们的执行是不同的。
- Datafusion 创建一个 Spark 管道并运行它在 Dataproc 集群上
- Dataprep 创建 Beam 管道并运行它在 Dataflow 上
IMO,Datafusion 更适合从一个源到另一个源的数据摄取,几乎不需要转换。
Dataprep更多是为数据准备(顾名思义)、数据清理、新列创建、拆分列而设计的。 Dataprep 还提供对数据的洞察,以帮助您制定食谱。
此外,Beam 是 Tensorflow extended 的一部分,如果您使用与 Beam 兼容的工具,您的数据工程师管道将更加一致
这就是为什么我会推荐 Dataprep 而不是 Datafusion。
我想 运行 一个带有一些数据的机器学习模型。在使用这些数据训练模型之前,我需要对其进行处理,因此我一直在阅读一些处理方法。
首先创建一个 Dataflow 管道将其上传到 Bigquery 或 Google Cloud Storage,然后使用 Google Dataprep 创建一个数据管道来清理它。
我想做的另一种方法是数据融合,它可以更容易地创建数据管道,但我不知道,这是我的疑问,数据融合只是为了创建像 Dataflow 这样的管道,然后我必须使用 DataPrep 来清理数据,或者如果 Data Fusion 可以清理数据并准备将其放入我的机器学习模型中。
如果 Data Fusion 可以像 DataPrep 一样清理数据,我应该什么时候使用 DataPrep?
Datafusion 和 Dataprep 可以执行相同的操作。但是他们的执行是不同的。
- Datafusion 创建一个 Spark 管道并运行它在 Dataproc 集群上
- Dataprep 创建 Beam 管道并运行它在 Dataflow 上
IMO,Datafusion 更适合从一个源到另一个源的数据摄取,几乎不需要转换。 Dataprep更多是为数据准备(顾名思义)、数据清理、新列创建、拆分列而设计的。 Dataprep 还提供对数据的洞察,以帮助您制定食谱。
此外,Beam 是 Tensorflow extended 的一部分,如果您使用与 Beam 兼容的工具,您的数据工程师管道将更加一致
这就是为什么我会推荐 Dataprep 而不是 Datafusion。