什么时候应该使用 Azure ML Notebooks VS Azure Databricks?我认为两者都是竞争对手的产品

When should I use Azure ML Notebooks VS Azure Databricks? Both are competitor products in my opinion

非常不言自明的问题。什么时候应该使用 Azure ML Notebooks VS Azure Databricks?我觉得这两种产品之间有很大的重叠,一种肯定比另一种更好。

我主要是在寻找有关数据集大小和典型工作流程的信息。如果我没有面向 Spark 的工作流程,为什么我应该使用 Databricks 而不是 AzureML?

谢谢!

@Nethim,从我的观点来看,这些是主要区别:

  1. 数据分布:

    • 当您在单台机器上使用有限数据进行训练时,Azure ML Notebooks 非常适合。 Azure ML虽然提供了训练集群,但是节点间的数据分布要在代码中处理。
    • Azure Databricks 及其 RDD 旨在处理分布在多个 nodes.This 上的数据,当您的数据大小为 huge.When 时,您的数据大小很小并且可以适应扩展的单台机器/您正在使用 pandas 数据框,那么使用 Azure databricks 就太过分了
  2. 数据清理: Databricks 可以原生支持多种文件格式,并且查询和清理庞大的数据集很容易,因为这必须在 AzureML 笔记本中自定义处理。这可以用 aml 笔记本来完成,但必须处理清洁和写入商店。

  3. 培训 两者都具有分发训练的能力,Databricks 提供内置的 ML 算法,可以作用于该节点上的数据块并与其他节点协调。虽然这可以通过 tf、horovod 等在 AzureMachineLearning 和 Databricks 上完成,

一般来说(只是我的看法),如果数据集很小,aml notebooks 是 good.If 数据量很大,那么 Azure databricks 很容易进行数据清理和格式化 conversions.Then 训练可以发生在 AML 或 databricks.Though 数据块上有一个学习曲线,而 Azure ML 可以很容易地使用 python 和 pandas。

谢谢。