Google DataPrep 非常慢
Google DataPrep is extremely slow
在 Google Dataflow 中,我的工作基本上是这样的:
数据集:100 行,1 列。
食谱:0步
输出:新 Table.
但是 运行 需要 6-8 分钟。可能是什么问题?
通常时间以分钟为单位,而不是 Dataprep/dataflow 设置的秒数。
这些解决方案适用于大型数据集,即使您有 10 倍的大小,持续时间也保持不变。
DataPrep 为您创建一个 DataFlow 工作流,并为您提供一些 VM,这需要时间,通常该阶段可能会在几分钟内完成。不久之后将其扩展到 50 或 1000 个盒子。
在 Google Dataflow 中,我的工作基本上是这样的:
数据集:100 行,1 列。
食谱:0步
输出:新 Table.
但是 运行 需要 6-8 分钟。可能是什么问题?
通常时间以分钟为单位,而不是 Dataprep/dataflow 设置的秒数。 这些解决方案适用于大型数据集,即使您有 10 倍的大小,持续时间也保持不变。
DataPrep 为您创建一个 DataFlow 工作流,并为您提供一些 VM,这需要时间,通常该阶段可能会在几分钟内完成。不久之后将其扩展到 50 或 1000 个盒子。