Databricks + ADF + ADLS2 + Hive = Azure Synapse

我没有使用 Azure Synapse 的经验，但我的理解是它与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同，都在一个工作区中，但名称不同。

我错了吗？

是的，在许多情况下，Azure Synapse 和 Databricks 提供相同的大数据分析方法，但这些服务之间也几乎没有区别。

随着 Synapse 现在的新功能，我们看到了一些与 Databricks（例如 Spark、Delta）类似的功能，这引发了一个问题，即 Synapse 与 Databricks 相比如何以及何时使用哪个。

是的，两者都有 Spark 但是……
- Databricks
  - 内置了专有数据处理引擎 (Databricks Runtime) 在高度优化的 Apache Spark 版本上提供 50 倍性能
  - 已经支持 Spark 3.0
  - 允许用户选择启用 GPU 的集群并在标准和高并发集群模式之间进行选择
- 突触
  - 开源 Apache Spark（因此不包括 Databricks Runtime 的所有功能）
  - 内置了对 .NET for Spark 应用程序的支持
是的，都有笔记本
- 突触
  - Nteract 笔记本
  - 有笔记本的共同创作，但一个人需要在另一个人看到更改之前保存笔记本
  - 没有自动版本控制
- Databricks
  - Databricks 笔记本
  - 具有实时共同创作（两位作者都可以实时看到更改）自动版本控制
是的，两者都可以从数据湖访问数据
- 突触
  - 创建 Synapse 时，您可以 select 一个数据湖，这将是您的主数据湖（可以直接从脚本中查询和笔记本）
- Databricks
  - 使用前需要挂载数据湖
是的，两者都利用 Delta
- 突触
  - Delta Lake 是开源的
- Databricks
  - 有基于开源的 Databricks Delta，但提供了一些额外的优化
不，它们不一样
- 突触
  - 既有传统的 SQL 引擎（适合传统的 BI 开发人员），也有 Spark 引擎（适合数据科学家、分析师和工程师）
  - 是数据仓库（即Synapse Analytics）+接口工具（即Synapse Studio）
- Databricks
  - 不是数据仓库工具，而是基于 Spark 的笔记本工具专注于 Spark、Delta Engine、MLflow 和 MLR
不，他们提供的开发者体验不同
- 突触
  - 目前仅通过 Synapse Studio（而非本地 IDE）为 Spark 开发提供开发人员体验
  - Git 尚未集成到 Synapse Studio Notebooks
- Databricks
  - 在 Databricks UI、Databricks Connect（即从 Visual Studio 代码、Pycharm 等进行远程连接）和很快的 Jupyter 和 RStudio UI 中提供开发人员体验在 Databricks 中

检查When to use Synapse and when Databricks?。

Databricks + ADF + ADLS2 + Hive = Azure Synapse

Databricks + ADF + ADLS2 + Hive = Azure Synapse

azure

apache-spark

azure-sql-database

azure-databricks

azure-synapse