Databricks + ADF + ADLS2 + Hive = Azure Synapse
Databricks + ADF + ADLS2 + Hive = Azure Synapse
我没有使用 Azure Synapse 的经验,但我的理解是它与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同,都在一个工作区中,但名称不同。
我错了吗?
是的,在许多情况下,Azure Synapse 和 Databricks 提供相同的大数据分析方法,但这些服务之间也几乎没有区别。
随着 Synapse 现在的新功能,我们看到了一些与 Databricks(例如 Spark、Delta)类似的功能,这引发了一个问题,即 Synapse 与 Databricks 相比如何以及何时使用哪个。
是的,两者都有 Spark 但是……
Databricks
- 内置了专有数据处理引擎 (Databricks Runtime)
在高度优化的 Apache Spark 版本上提供 50 倍
性能
- 已经支持 Spark 3.0
- 允许用户选择启用 GPU 的集群并在标准和高并发集群模式之间进行选择
突触
- 开源 Apache Spark(因此不包括 Databricks Runtime 的所有功能)
- 内置了对 .NET for Spark 应用程序的支持
是的,都有笔记本
突触
Nteract 笔记本
有笔记本的共同创作,但一个人需要在另一个人看到更改之前保存笔记本
没有自动版本控制
Databricks
Databricks 笔记本
具有实时共同创作(两位作者都可以实时看到更改)自动版本控制
是的,两者都可以从数据湖访问数据
突触
- 创建 Synapse 时,您可以 select 一个数据湖,这将是您的
主数据湖(可以直接从脚本中查询和
笔记本)
Databricks
- 使用前需要挂载数据湖
是的,两者都利用 Delta
突触
- Delta Lake 是开源的
Databricks
- 有基于开源的 Databricks Delta,但提供了一些额外的优化
不,它们不一样
突触
既有传统的 SQL 引擎(适合传统的 BI 开发人员),也有 Spark 引擎(适合数据科学家、分析师和工程师)
是数据仓库(即Synapse Analytics)+接口工具(即Synapse Studio)
Databricks
- 不是数据仓库工具,而是基于 Spark 的笔记本工具
专注于 Spark、Delta Engine、MLflow 和 MLR
不,他们提供的开发者体验不同
突触
目前仅通过 Synapse Studio(而非本地 IDE)为 Spark 开发提供开发人员体验
Git 尚未集成到 Synapse Studio Notebooks
Databricks
- 在 Databricks UI、Databricks Connect(即从 Visual Studio 代码、Pycharm 等进行远程连接)和很快的 Jupyter 和 RStudio UI 中提供开发人员体验在 Databricks 中
我没有使用 Azure Synapse 的经验,但我的理解是它与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同,都在一个工作区中,但名称不同。
我错了吗?
是的,在许多情况下,Azure Synapse 和 Databricks 提供相同的大数据分析方法,但这些服务之间也几乎没有区别。
随着 Synapse 现在的新功能,我们看到了一些与 Databricks(例如 Spark、Delta)类似的功能,这引发了一个问题,即 Synapse 与 Databricks 相比如何以及何时使用哪个。
是的,两者都有 Spark 但是……
Databricks
- 内置了专有数据处理引擎 (Databricks Runtime) 在高度优化的 Apache Spark 版本上提供 50 倍 性能
- 已经支持 Spark 3.0
- 允许用户选择启用 GPU 的集群并在标准和高并发集群模式之间进行选择
突触
- 开源 Apache Spark(因此不包括 Databricks Runtime 的所有功能)
- 内置了对 .NET for Spark 应用程序的支持
是的,都有笔记本
突触
Nteract 笔记本
有笔记本的共同创作,但一个人需要在另一个人看到更改之前保存笔记本
没有自动版本控制
Databricks
Databricks 笔记本
具有实时共同创作(两位作者都可以实时看到更改)自动版本控制
是的,两者都可以从数据湖访问数据
突触
- 创建 Synapse 时,您可以 select 一个数据湖,这将是您的 主数据湖(可以直接从脚本中查询和 笔记本)
Databricks
- 使用前需要挂载数据湖
是的,两者都利用 Delta
突触
- Delta Lake 是开源的
Databricks
- 有基于开源的 Databricks Delta,但提供了一些额外的优化
不,它们不一样
突触
既有传统的 SQL 引擎(适合传统的 BI 开发人员),也有 Spark 引擎(适合数据科学家、分析师和工程师)
是数据仓库(即Synapse Analytics)+接口工具(即Synapse Studio)
Databricks
- 不是数据仓库工具,而是基于 Spark 的笔记本工具 专注于 Spark、Delta Engine、MLflow 和 MLR
不,他们提供的开发者体验不同
突触
目前仅通过 Synapse Studio(而非本地 IDE)为 Spark 开发提供开发人员体验
Git 尚未集成到 Synapse Studio Notebooks
Databricks
- 在 Databricks UI、Databricks Connect(即从 Visual Studio 代码、Pycharm 等进行远程连接)和很快的 Jupyter 和 RStudio UI 中提供开发人员体验在 Databricks 中