什么时候应该使用 Greenplum 数据库而不是 HAWQ?

When should I use Greenplum Database versus HAWQ?

我们有零售行业数据的用例。我们正在制作 EDW。

我们目前正在从 HAWQ.But 进行报告 我们想将我们的 MPP 数据库从 Hawq 转移到 Greenplum。 基本上,我们想对当前数据管道进行更改。

我们对gpdb的困惑点:

如有任何帮助,将不胜感激?

这个查询有点像问,"when should I use a wrench?" 答案也将是主观的,因为 Greenplum 可用于许多不同的事情。但是,既然你问了,我会尽力给出我的意见。

HOW gpdb layer going to affect our existing data pipeline. Here data pipeline is external system --> talend -->hadoop-hawq-->tableau. We want to transform our data pipeline as external system --> talend -->hadoop-hawq-->greenplum -->tableau.

有很多方法可以实现数据管道,您的目标是先将数据加载到 Hadoop,然后再将其加载到 Greenplum,这种方法很常见并且效果很好。您可以在 Greenplum 中使用 External Tables 直接从 HDFS 并行读取数据。所以从Hadoop集群到Greenplum的数据移动可以通过简单的INSERT语句实现。

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;

How Greenplum is physically or logically going to help in SQL transformation and reporting.

隔离一个。使用单独的 Greenplum 集群,您可以在不影响 Hadoop activity 性能的情况下为客户提供分析,反之亦然。这种隔离还可以提供额外的安全层。

Which file format should i opt for storing the files in GPDB while HAWQ we are storing files in plain text format.What are the supported format is good for writing in gpdb like avro,parquet etc.

使用您建议的数据管道,我会根据性能在 Greenplum 中做出数据格式决定。如此大的表,对表进行分区并使用 quicklz 压缩使其面向列。对于较小的表,只需对其进行追加优化。对于有大量更新或删除的表,将其保留为默认堆。

How is data file processed from GPDB . so, that it also bring faster reporting and predictive analysis.

Greenplum 是一个 MPP 数据库。存储是 "shared nothing" 意味着每个节点都有其他节点没有的唯一数据(不包括高可用性镜像)。段的数据将始终在本地磁盘上。

在 HAWQ 中,因为它使用 HDFS,所以段的数据不必是本地的。第 1 天,当您将数据写入 HDFS 时,它是本地的,但在节点故障、扩展等之后,HAWQ 可能必须从其他节点获取数据。由于 Hadoop 的工作方式,这使得 Greenplum 的性能比 HAWQ 更具可预测性。

Is there any way to push data from HAWQ into Greenplum? We are looking for guidance how to take shift our reporting use case from HAWQ INTO Greenplum.

推,不,但拉,是的。正如我上面提到的,您可以在 Greenplum 中创建一个外部 Table 到来自 HDFS 的 SELECT 数据。您还可以在 Greenplum 中创建 Writable External Tables 以将数据推送到 HDFS。