GCP Hadoop 数据仓库?
GCP Hadoop data warehouse?
我知道 Google BigQuery 是数据仓库,但 Dataproc、Big Table、Pub/Sub 被认为是数据仓库吗?这会使 Hadoop 成为数据仓库吗?
- Dataproc 可以用作数据湖,因为它是一个 Hadoop 集群,但它可以被视为一个数据仓库,因为一些工具可以查阅它的信息。
- BigTable 可存储多达 PB 的数据,但是,它专为需要非常高的吞吐量和可扩展性的应用程序而设计。尽管如此,由于其高存储容量和流processing/analytics,它也可以被视为数据仓库。
- Pub/Sub它不是数据仓库,因为它是发布-订阅服务。
"Data warehouse" 主要是一个信息系统概念,它描述了(例如 company/business)数据的集中和可信来源。
来自 Wikipedia:"DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one single place that are used for creating analytical reports for workers throughout the enterprise."
关于您的问题,一个简单的答案是:
- Google BigQuery 是一个查询执行(and/or 数据处理)引擎,您可以在不同类型的数据存储上使用它。
- Google BigTable 是一种数据库服务,可用于实现
数据仓库或任何其他数据存储。
- Google DataProc 是由常见的 Hadoop 处理组件组成的数据处理服务,如 MapReduce(或 Spark,如果你认为它是 Hadoop 的一部分)。
- Hadoop framework/platform 用于数据存储和处理,由
不同的组件(例如,通过 HDFS 进行数据存储,通过 MapReduce 进行数据处理)。您可以使用 Hadoop 平台构建数据仓库,例如通过使用MapReduce处理数据并将其加载到ORC文件中,这些文件将存储在HDFS中并且可以被Hive查询。但只有 "centralized, single version of the truth about data" ;)
才称它为数据仓库才合适
我知道 Google BigQuery 是数据仓库,但 Dataproc、Big Table、Pub/Sub 被认为是数据仓库吗?这会使 Hadoop 成为数据仓库吗?
- Dataproc 可以用作数据湖,因为它是一个 Hadoop 集群,但它可以被视为一个数据仓库,因为一些工具可以查阅它的信息。
- BigTable 可存储多达 PB 的数据,但是,它专为需要非常高的吞吐量和可扩展性的应用程序而设计。尽管如此,由于其高存储容量和流processing/analytics,它也可以被视为数据仓库。
- Pub/Sub它不是数据仓库,因为它是发布-订阅服务。
"Data warehouse" 主要是一个信息系统概念,它描述了(例如 company/business)数据的集中和可信来源。
来自 Wikipedia:"DWs are central repositories of integrated data from one or more disparate sources. They store current and historical data in one single place that are used for creating analytical reports for workers throughout the enterprise."
关于您的问题,一个简单的答案是:
- Google BigQuery 是一个查询执行(and/or 数据处理)引擎,您可以在不同类型的数据存储上使用它。
- Google BigTable 是一种数据库服务,可用于实现 数据仓库或任何其他数据存储。
- Google DataProc 是由常见的 Hadoop 处理组件组成的数据处理服务,如 MapReduce(或 Spark,如果你认为它是 Hadoop 的一部分)。
- Hadoop framework/platform 用于数据存储和处理,由 不同的组件(例如,通过 HDFS 进行数据存储,通过 MapReduce 进行数据处理)。您可以使用 Hadoop 平台构建数据仓库,例如通过使用MapReduce处理数据并将其加载到ORC文件中,这些文件将存储在HDFS中并且可以被Hive查询。但只有 "centralized, single version of the truth about data" ;) 才称它为数据仓库才合适