数据湖中的交易数据
Transactional data in data lake
我们有多个源系统发送数据。理想情况下,我们应该捕获来自源的原始数据并将其保存在数据湖中。然后我们必须将原始数据处理成结构化格式。现在用户可以通过前端应用程序更新这些数据。
我正在考虑将 rdbms 放在处理过的数据之上,然后将审计跟踪从 rdbms 拉到数据湖,并合并处理过的数据和审计跟踪以创建最终的报告视图。或者 rdbms 也可以用于分析。
或者我们可以将原来在rdbms中的所有数据和运行rdbms中的变化都引入,从rdbms中拉取数据到数据湖中。但这对引入数据湖意义不大。
请多多指教。
谢谢,
ADLA 不是面向消费者的,这意味着您不会将前端系统连接到它。
如果问题是 "what should we do",我不确定是否有人可以为您解答,但听起来您的方向是正确的。
我能做的就是告诉你我们是做什么的:
- 原始数据(CSV 或 TXT 文件)进入 Blob 存储
- U-SQL 脚本提取该数据并将其存储在数据湖分析中
表。 [此时可以删除 Blob]。
- 我们根据需要将处理后的数据输出到 RDBMS 等 "consumable" 源。那里
有几种方法可以做到这一点,但目前我们输出到 blob 存储中的管道分隔文本文件,并使用 Polybase 导入到 SQL 服务器。 YMMV.
首先将数据拉入数据湖,然后将数据拉入 RDBMS 对我来说很有意义。
我们有多个源系统发送数据。理想情况下,我们应该捕获来自源的原始数据并将其保存在数据湖中。然后我们必须将原始数据处理成结构化格式。现在用户可以通过前端应用程序更新这些数据。
我正在考虑将 rdbms 放在处理过的数据之上,然后将审计跟踪从 rdbms 拉到数据湖,并合并处理过的数据和审计跟踪以创建最终的报告视图。或者 rdbms 也可以用于分析。
或者我们可以将原来在rdbms中的所有数据和运行rdbms中的变化都引入,从rdbms中拉取数据到数据湖中。但这对引入数据湖意义不大。
请多多指教。
谢谢,
ADLA 不是面向消费者的,这意味着您不会将前端系统连接到它。 如果问题是 "what should we do",我不确定是否有人可以为您解答,但听起来您的方向是正确的。
我能做的就是告诉你我们是做什么的:
- 原始数据(CSV 或 TXT 文件)进入 Blob 存储
- U-SQL 脚本提取该数据并将其存储在数据湖分析中 表。 [此时可以删除 Blob]。
- 我们根据需要将处理后的数据输出到 RDBMS 等 "consumable" 源。那里 有几种方法可以做到这一点,但目前我们输出到 blob 存储中的管道分隔文本文件,并使用 Polybase 导入到 SQL 服务器。 YMMV.
首先将数据拉入数据湖,然后将数据拉入 RDBMS 对我来说很有意义。