我们可以在数据仓库中存储多种类型的数据吗?

Can we store multiple types of data in a data warehouse?

请问Hadoop数据仓库可以存储各种类型的数据吗? RDBMS、JSON Doc、Cassandra Keyspace、txt、CSV 等数据?它们都存储在 HDFS 中吗?

Classic DWH 是结构化的、经过过滤的数据的存储库,这些数据已经针对特定目的进行了处理,并且所有数据都以相同的格式存储,但着陆区(LZ 或 RAW)除外,数据可以在其中存储以与从源系统加载的格式相同的格式存储。 DHW 构建过程基于 Kimball 或 Inmon 理论。

你问的是数据湖——一个现代概念——是一个巨大的原始数据池,其目的尚不完全确定。在 DL 中,您可以存储所有结构化数据和半结构化数据,数据分析师可以访问 3NF 或维度形式的 RAW 半结构化数据和结构化数据。

RDBMS 通常在内部存储表示和访问方式之间添加抽象层,尽管许多 RDBMS 可以将数据存储在 HDFS 的外部文件中,这是为了方便与 Data Lake 集成。

是的,您可以将所有内容存储在同一个 DL 中:半结构化数据、不同存储格式(如 AVRO、CSV、Parquet、ORC、ETC)的数据,在其上构建 Hive 表以及不同的 RDBM 表,所有可以存储在同一个HDFS/S3/Azure/GCS/etc

某些层也可以在 DL 中创建,例如 RAW/LZ/DM 或基于域 event/business 事件模型,这意味着 DL 并非没有架构约束,通常您有一些架构设计,以及 DL 和经典 DWH 中要遵循的架构约束。