Databricks + ADF + ADLS2 + Hive = Azure Synapse

Databricks + ADF + ADLS2 + Hive = Azure Synapse

我没有使用 Azure Synapse 的经验,但我的理解是它与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同,都在一个工作区中,但名称不同。

我错了吗?

是的,在许多情况下,Azure Synapse 和 Databricks 提供相同的大数据分析方法,但这些服务之间也几乎没有区别。

随着 Synapse 现在的新功能,我们看到了一些与 Databricks(例如 Spark、Delta)类似的功能,这引发了一个问题,即 Synapse 与 Databricks 相比如何以及何时使用哪个。

  • 是的,两者都有 Spark 但是……

    • Databricks

      • 内置了专有数据处理引擎 (Databricks Runtime) 在高度优化的 Apache Spark 版本上提供 50 倍 性能
      • 已经支持 Spark 3.0
      • 允许用户选择启用 GPU 的集群并在标准和高并发集群模式之间进行选择
    • 突触

      • 开源 Apache Spark(因此不包括 Databricks Runtime 的所有功能)
      • 内置了对 .NET for Spark 应用程序的支持
  • 是的,都有笔记本

    • 突触

      • Nteract 笔记本

      • 有笔记本的共同创作,但一个人需要在另一个人看到更改之前保存笔记本

      • 没有自动版本控制

    • Databricks

      • Databricks 笔记本

      • 具有实时共同创作(两位作者都可以实时看到更改)自动版本控制

  • 是的,两者都可以从数据湖访问数据

    • 突触

      • 创建 Synapse 时,您可以 select 一个数据湖,这将是您的 主数据湖(可以直接从脚本中查询和 笔记本)
    • Databricks

      • 使用前需要挂载数据湖
  • 是的,两者都利用 Delta

    • 突触

      • Delta Lake 是开源的
    • Databricks

      • 有基于开源的 Databricks Delta,但提供了一些额外的优化
  • 不,它们不一样

    • 突触

      • 既有传统的 SQL 引擎(适合传统的 BI 开发人员),也有 Spark 引擎(适合数据科学家、分析师和工程师)

      • 是数据仓库(即Synapse Analytics)+接口工具(即Synapse Studio)

    • Databricks

      • 不是数据仓库工具,而是基于 Spark 的笔记本工具 专注于 Spark、Delta Engine、MLflow 和 MLR
  • 不,他们提供的开发者体验不同

    • 突触

      • 目前仅通过 Synapse Studio(而非本地 IDE)为 Spark 开发提供开发人员体验

      • Git 尚未集成到 Synapse Studio Notebooks

    • Databricks

      • 在 Databricks UI、Databricks Connect(即从 Visual Studio 代码、Pycharm 等进行远程连接)和很快的 Jupyter 和 RStudio UI 中提供开发人员体验在 Databricks 中

检查When to use Synapse and when Databricks?