如何处理或构建 Azure 数据湖存储中的增量数据摄取?
How to Handle or Architecture, incremental data ingestion in Azure data lake Store?
我有两个自定义代码 dll,用于与网络摄像头相关的图像。
dll-One : 从 IP 摄像头中提取图像并可以将其存储到 Azure 数据湖存储。
喜欢 :
- /adls/clinic1/patientimages
- /adls/clinic2/patientimages
dll-two : 使用这些映像并从中提取信息并将数据加载到 RDBMS 表中。
例如在 RDBMS 中,假设有实体 dimpatient、dimclinic 和 factpatientVisit。
首先,可以将一次性数据导出到 Azure 数据湖存储中定义的位置。
赞:
- /adls/dimpatient
- /adls/dimclinic
- /adls/factpatientVisit
问题:
如何在同一个文件中推送增量数据,或者我们如何在 Azure 数据分析中处理这种增量负载?
这就像在 Azure Data Analytics 中实施仓库。
注意:Azure SQL 数据库或 Azure 提供的任何其他存储不想要。
我的意思是,如果一种类型的存储能够容纳所有类型的数据,为什么还要花钱购买其他 Azure 服务。
adls 是我的 ADLS 存储的名称。
我不确定我是否完全理解你的问题,但你可以在 Azure Data Lake Store 中组织你的数据文件,或者在分区的 U-SQL 表中沿着时间维度组织你的行,这样你就可以添加新的partitions/files 每个增量。一般而言,我们建议此类增量要足够大,以保持扩展能力。
我有两个自定义代码 dll,用于与网络摄像头相关的图像。
dll-One : 从 IP 摄像头中提取图像并可以将其存储到 Azure 数据湖存储。
喜欢 :
- /adls/clinic1/patientimages
- /adls/clinic2/patientimages
dll-two : 使用这些映像并从中提取信息并将数据加载到 RDBMS 表中。
例如在 RDBMS 中,假设有实体 dimpatient、dimclinic 和 factpatientVisit。
首先,可以将一次性数据导出到 Azure 数据湖存储中定义的位置。
赞:
- /adls/dimpatient
- /adls/dimclinic
- /adls/factpatientVisit
问题: 如何在同一个文件中推送增量数据,或者我们如何在 Azure 数据分析中处理这种增量负载?
这就像在 Azure Data Analytics 中实施仓库。
注意:Azure SQL 数据库或 Azure 提供的任何其他存储不想要。 我的意思是,如果一种类型的存储能够容纳所有类型的数据,为什么还要花钱购买其他 Azure 服务。
adls 是我的 ADLS 存储的名称。
我不确定我是否完全理解你的问题,但你可以在 Azure Data Lake Store 中组织你的数据文件,或者在分区的 U-SQL 表中沿着时间维度组织你的行,这样你就可以添加新的partitions/files 每个增量。一般而言,我们建议此类增量要足够大,以保持扩展能力。