什么是数据仓库,它可以应用于复杂数据吗?
What is a Data Warehouse and can it be applied to complex data?
我想用必要的文献参考来定义数据仓库。
我在维基百科上发现 wiki
DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one
single place that are used for creating analytical reports for
workers throughout the enterprise.
这是否意味着它始终是数据仓库下的关系数据库,或者它可以是任何类型的存储库?
在 An Architecture Framework for Complex Data Warehouses 中,术语数据仓库也用于表示视频、图像等复杂数据,但术语数据仓库在该论文中仍未定义。
"Data warehouse" 主要是一个信息系统概念,描述了(例如 company/business)数据的集中和可信来源。
来自维基百科:"DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one single place that are used for creating analytical reports for workers throughout the enterprise."
我认为 Kimball Group 是该主题最权威的来源之一,因为他们已经开发了他们的框架和方法超过 20 年,并且他们也一直将该框架应用于不同的业务和技术领域,并且分享这方面的成果。
Kimball 的 The Data Warehouse Toolkit 是该主题的参考书之一,它将数据仓库定义为 "a copy of transaction data specifically structured for query and analysis"。
Bill Inmon也被认为是数据仓库的先驱之一,将数据仓库定义为"a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process"
数据仓库不必在关系数据库系统上实现,尽管在 RDBMS 或支持 "joinable" 表概念的不同数据库系统(例如 Redshift , Presto, Hive).
最近添加到数据体系结构中的概念是 data lake,它完美地适应了复杂的数据类型,它通常是可以处理几乎任何类型的数据类型(例如 S3、HDFS)的数据存储) 可以直接分析(例如 MapReduce 在 S3 上的 XML 文件)或处理成不同的格式或数据模型(如维度模型)。
根据您的评论编辑:
数据仓库和数据湖是服务于不同目的的独立系统,can/should是互补的,两者都是更大数据架构的一部分。作为一个概念,数据湖可以只是数据仓库维度模型的另一个数据源(尽管数据湖的技术实现使直接查询原始数据)。
您可以将数据湖想象成 "landing zone",其中多个系统将数据转储到 "complex/raw format",例如来自客户支持电话的 MP3 文件,来自网络服务器的 gzip 日志。它的目的是为了历史目的而坐在那里,并进一步处理成一种可以轻松 analyzed/reported 的格式,例如从 MP3 文件中提取文本。
数据仓库还聚合来自不同系统的数据,但数据被建模为适合报告的格式(如维度模型),其模型反映了 business/domain 的流程和交易,并且是通常精心策划。
想象一下:如果您使用 Web 服务器日志记录对在线商店的访问,则可以将 gzip 日志("transaction data")保存在数据湖中,然后将数据处理成维度模型(例如 this),这将是 "copy of transaction data specifically structured for query and analysis",因此业务用户可以在 Excel 或其他一些报告工具中轻松探索它。
我想用必要的文献参考来定义数据仓库。
我在维基百科上发现 wiki
DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one single place that are used for creating analytical reports for workers throughout the enterprise.
这是否意味着它始终是数据仓库下的关系数据库,或者它可以是任何类型的存储库?
在 An Architecture Framework for Complex Data Warehouses 中,术语数据仓库也用于表示视频、图像等复杂数据,但术语数据仓库在该论文中仍未定义。
"Data warehouse" 主要是一个信息系统概念,描述了(例如 company/business)数据的集中和可信来源。
来自维基百科:"DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one single place that are used for creating analytical reports for workers throughout the enterprise."
我认为 Kimball Group 是该主题最权威的来源之一,因为他们已经开发了他们的框架和方法超过 20 年,并且他们也一直将该框架应用于不同的业务和技术领域,并且分享这方面的成果。
Kimball 的 The Data Warehouse Toolkit 是该主题的参考书之一,它将数据仓库定义为 "a copy of transaction data specifically structured for query and analysis"。
Bill Inmon也被认为是数据仓库的先驱之一,将数据仓库定义为"a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process"
数据仓库不必在关系数据库系统上实现,尽管在 RDBMS 或支持 "joinable" 表概念的不同数据库系统(例如 Redshift , Presto, Hive).
最近添加到数据体系结构中的概念是 data lake,它完美地适应了复杂的数据类型,它通常是可以处理几乎任何类型的数据类型(例如 S3、HDFS)的数据存储) 可以直接分析(例如 MapReduce 在 S3 上的 XML 文件)或处理成不同的格式或数据模型(如维度模型)。
根据您的评论编辑:
数据仓库和数据湖是服务于不同目的的独立系统,can/should是互补的,两者都是更大数据架构的一部分。作为一个概念,数据湖可以只是数据仓库维度模型的另一个数据源(尽管数据湖的技术实现使直接查询原始数据)。
您可以将数据湖想象成 "landing zone",其中多个系统将数据转储到 "complex/raw format",例如来自客户支持电话的 MP3 文件,来自网络服务器的 gzip 日志。它的目的是为了历史目的而坐在那里,并进一步处理成一种可以轻松 analyzed/reported 的格式,例如从 MP3 文件中提取文本。
数据仓库还聚合来自不同系统的数据,但数据被建模为适合报告的格式(如维度模型),其模型反映了 business/domain 的流程和交易,并且是通常精心策划。
想象一下:如果您使用 Web 服务器日志记录对在线商店的访问,则可以将 gzip 日志("transaction data")保存在数据湖中,然后将数据处理成维度模型(例如 this),这将是 "copy of transaction data specifically structured for query and analysis",因此业务用户可以在 Excel 或其他一些报告工具中轻松探索它。