实施数据仓库

Implementing a Data Warehouse

我刚开始学习大数据领域,所以我想知道在 SQL 服务器

旁边实现数据仓库的最佳数据库管理系统是什么

这个问题很难回答,因为没有提供很多信息。我会问一些问题来决定这个:

  • 大数据可以是品种。所以也许 正确的数据库 的问题不是正确的,但问题应该是:数据看起来如何?是相关的吗?它是基于 NoSQL 的吗? JSON或XML形成?它是两种类型的混合物吗?这可能导致仅使用一个 PostgreSQL 实例或使用混合 "Data Lake" 环境与 Hadoop 组件,如 HDFS / Hive,Spark,例如 MongoDB 非结构化 NoSQL JSON 数据实例。

  • 大数据可以是速度。同样,这里应该是一个问题:必须在多少时间内消耗多少数据?所有这些数据都必须是交易数据吗?如果管道速度不够快,无法使用数据,是否可以忽略某些信息?大数据基础架构的计划位置是在云端还是内部部署?

  • 大数据可以是数量。那么,要规划多大的环境呢?现在的数据量会有多大?一年后会有多大?增长率有多大?这可能导致决定不使用许可工具来避免许可费用。此外,这可能会导致决定是在云中还是在本地构建环境 - 在本地也应该明确是否需要高可用性。

要回答这个问题,需要对未来计划的用例有更多了解。如果你真的只想存储关系数据,这里有一些关于数据库系统的列表。

例如从我的头顶:

  • MySQL
  • PostgreSQL