为什么 Azure Databricks 需要将数据存储在 Azure 的临时存储中
Why Azure Databricks needs to store data in a temp storage in Azure
我正在关注有关使用 azure databricks 进行数据转换的教程,它说在将数据加载到 azure synapse analytics 之前,由 azure databricks 转换的数据将首先保存在 azure blob 存储中的临时存储中,然后再加载到 azure synapse分析。为什么需要在加载到 Azure Synapse Analytics 之前将其保存到临时存储?
Azure 存储容器在读取或写入 Azure Synapse 时充当存储批量数据的中介。 Spark 使用 built-in 连接器之一连接到存储容器:Azure Blob 存储或 Azure Data Lake Storage (ADLS) Gen2。
下面的架构图显示了如何通过连接到外部资源(例如 Azure Blob 存储)的每个计算节点上的数据移动服务 (DMS) 服务的每个 HDFS 桥来实现这一点。然后,PolyBase 在 SQL 数据仓库和提供快速加载性能的外部资源之间双向传输数据。
使用 PolyBase 提取、加载和转换数据
为 SQL 数据仓库实施 PolyBase ELT 的步骤是:
- 将源数据提取到文本文件中。
- 将数据加载到 Azure Blob 存储、Hadoop 或 Azure Data Lake Store。
- 将数据导入
SQL 使用 PolyBase 的数据仓库暂存表。
- 转换数据(可选)。
- 将数据插入生产表。
我正在关注有关使用 azure databricks 进行数据转换的教程,它说在将数据加载到 azure synapse analytics 之前,由 azure databricks 转换的数据将首先保存在 azure blob 存储中的临时存储中,然后再加载到 azure synapse分析。为什么需要在加载到 Azure Synapse Analytics 之前将其保存到临时存储?
Azure 存储容器在读取或写入 Azure Synapse 时充当存储批量数据的中介。 Spark 使用 built-in 连接器之一连接到存储容器:Azure Blob 存储或 Azure Data Lake Storage (ADLS) Gen2。
下面的架构图显示了如何通过连接到外部资源(例如 Azure Blob 存储)的每个计算节点上的数据移动服务 (DMS) 服务的每个 HDFS 桥来实现这一点。然后,PolyBase 在 SQL 数据仓库和提供快速加载性能的外部资源之间双向传输数据。
使用 PolyBase 提取、加载和转换数据 为 SQL 数据仓库实施 PolyBase ELT 的步骤是:
- 将源数据提取到文本文件中。
- 将数据加载到 Azure Blob 存储、Hadoop 或 Azure Data Lake Store。
- 将数据导入 SQL 使用 PolyBase 的数据仓库暂存表。
- 转换数据(可选)。
- 将数据插入生产表。