数据湖中的交易数据

Transactional data in data lake

我们有多个源系统发送数据。理想情况下,我们应该捕获来自源的原始数据并将其保存在数据湖中。然后我们必须将原始数据处理成结构化格式。现在用户可以通过前端应用程序更新这些数据。

我正在考虑将 rdbms 放在处理过的数据之上,然后将审计跟踪从 rdbms 拉到数据湖,并合并处理过的数据和审计跟踪以创建最终的报告视图。或者 rdbms 也可以用于分析。

或者我们可以将原来在rdbms中的所有数据和运行rdbms中的变化都引入,从rdbms中拉取数据到数据湖中。但这对引入数据湖意义不大。

请多多指教。

谢谢,

ADLA 不是面向消费者的,这意味着您不会将前端系统连接到它。 如果问题是 "what should we do",我不确定是否有人可以为您解答,但听起来您的方向是正确的。

我能做的就是告诉你我们是做什么的:

  1. 原始数据(CSV 或 TXT 文件)进入 Blob 存储
  2. U-SQL 脚本提取该数据并将其存储在数据湖分析中 表。 [此时可以删除 Blob]。
  3. 我们根据需要将处理后的数据输出到 RDBMS 等 "consumable" 源。那里 有几种方法可以做到这一点,但目前我们输出到 blob 存储中的管道分隔文本文件,并使用 Polybase 导入到 SQL 服务器。 YMMV.

首先将数据拉入数据湖,然后将数据拉入 RDBMS 对我来说很有意义。