创建数据仓库应遵循什么设计

what design to follow to create a Datawarehouse

我正在从事一个创建数据仓库的项目。我一直在使用第三方工具来创建 OLAP 多维数据集,但问题是它为每个 OLAP 多维数据集创建了单独的临时区域,而我的大多数多维数据集共享相同的数据源。公司决定建立一个单一的数据仓库,然后立方体将从该仓库获取数据。

我将从不同的来源提取数据,并将它们存储在数据库(暂存区)中,然后我将这些数据转换为适合维度和事实的表,并将它们存储在一个名为数据仓库的单独数据库中,然后我将通过从数据仓库获取数据来创建独立的多维数据集。

我关心的是,我可以为暂存区和数据库仓库创建不同的数据库,尽管它们在同一台服务器上吗?

另外,关于我的数据集市,我需要将所有数据集市放入同一个仓库中,还是可以将它们放入不同的数据库中,我想在这里了解逻辑和物理分离以及最佳实践。

听起来您已经按照 Bill Inmon 的数据仓库解决方案中的公司信息工厂的规定开了一些东西。

http://www.inmoncif.com/library/cif/

将 EDW 视为您的单一数据仓库,将部门数据集市视为您的独立多维数据集。

您可以在加载第一个数据仓库并将其用作集中数据时进行规范化(并执行大部分转换)。

加载多维数据集时,您可以选择多种显示加载数据的方法。如您所述暂存到一个新的单一数据库,在中央数据仓库之上创建视图以从中读取数据或为每个多维数据集创建一个单独的暂存区。

请记住,单独的多维数据集的目的可能是将部门彼此隔离,以便为各个部门实现快速简洁的开发,而第一个中央数据仓库的目的可能是在使用之前将不同的数据协调成一个合适的数据集用于许多报告目的。

与决定您的架构的人交谈,了解他们的想法或他们想要解决的问题。

用于设计数据仓库。

  1. 首先我们应该了解数据仓库的用途(即我们要从系统中获取什么类型的报告)

  2. 我们需要选择架构(STAR 或 SNOWFLAK)

  3. 我们需要创建数据仓库的维度。

  4. 我们需要创建一个事实 table 来存储所有交易数据。