我可以在 Azure 环境之外使用 Azure Synapse 功能吗?

Can I use Azure Synapse functionality outside the Azure environment?

论坛,

我目前正在研究 Azure Synapse,将其作为迁移本地数据架构的一种选择。我对它提供的功能感到兴奋 - SQL Pools、Spark Pools 和随附的笔记本。我知道 Synapse 可以作为一个多合一的数据平台,我的数据科学家和数据分析师可以使用它的功能随意提供见解。但是,我的团队所做的大部分工作是创建 数据产品

我们目前有一个 kubernetes 集群,其中有几个独立的 API 在我们更大的软件整体中执行数据科学操作。它们可以被认为是微服务。大多数 ETL 是在我们的 SQL-server 中完成的,而我们 K8S 集群中的微服务(通常是 python + 一些 python 包 + FastAPI)通常会获得所需的来自我们 SQL-服务器的数据通过一些 SQL-使用 ODBC 连接器的查询。

现在我的问题是,Synapse 是否适合这样的架构?我可以调用 SQL-pool 或 spark-pool 从 azure 环境外部(比如从 kubernetes pod)进行大量数据提升吗?

很遗憾,您无法将 Azure Synapse Analytics 与 Kubernetes 服务集成。

Synapse SQL 帮助执行 SQL 查询,而 Apache Spark 对大数据执行 batch/stream 处理。 SQL 池用于处理存储在专用 SQL 池中的数据,而 Spark SQL 可以与您在 Azure Databricks 或 Azure 机器学习中持有的现有数据准备或数据科学项目集成服务。

此外,根据此 third-party document,Azure Synapse Analytics 无法与 Kubernetes 服务集成。

作为解决方法,您可以copy/move将您的数据从 Kubernetes 传输到 Azure 服务,例如 Azure 专用 SQL 池、Azure Blob 存储或 Azure Data Lake Storage,然后将其与 Azure Synapse 管道集成或星火池.