在 Azure sql 中摄取和处理数据的选项

Options for ingesting and processing data in Azure sql

我需要有关我正在从事的项目的专家意见。目前,我们使用调用存储过程的本地脚本获取加载到 Azure sql 数据库中的数据文件。我计划用 ssis 作业替换脚本以将数据加载到我们的 Azure Sql 但想知道这是否是一个不错的选择,因为我们的 needs.I 也对不同的建议持开放态度。我们经历的过程是将数据文件加载到暂存表并在更新实时表之前进行验证。验证和更新是通过调用存储过程完成的……因此 ssis 包将只加载数据并调用这些存储过程。我看过 ADF IR 和 Databricks,但它们似乎有点矫枉过正,但我​​愿意听取有使用这些经验的人的意见。我目前也在本地 运行 ssis 包。关于针对此场景的更好架构或工具的任何建议?谢谢!

您可以只从 Azure Blob 存储中批量插入数据:

https://docs.microsoft.com/en-us/sql/relational-databases/import-export/examples-of-bulk-access-to-data-in-azure-blob-storage?view=sql-server-ver15#accessing-data-in-a-csv-file-referencing-an-azure-blob-storage-location

然后您可以使用 ADF(无 IR)或 Databricks 或 Azure Batch 或 Azure Elastic Jobs 来安排执行。

我肯定会看看 Azure 数据工厂数据流。有了它,您可以在 Azure 数据工厂 GUI 中轻松构建 ETL 管道。

在以下示例中,读取、连接来自 Blob 存储的两个文本文件,添加代理键,最后将数据加载到 Azure Synapse Analytics(与 Azure SQL 相同):

你终于把这个Mapping Data Flow放到了pipeline中,可以触发了,e。 G。如果有新数据到达。