我如何在 Amazon redshift 中编写此 postgres 查询，使其像在 postgres 中一样优化？

Question

这是我在 postgres 中使用的原始查询 -

SELECT a.id,
    (SELECT val
       FROM database.detail x
      WHERE name = 'blablah'
        AND x.id = b.id) AS myGroup,
    c.username,
    a.someCode,
    a.timeTaken,
    a.date ::timestamp WITH time ZONE AT time ZONE 'PST' AS date,
    SUM (CASE WHEN (b.name = 'name1') THEN b.val ::INTEGER ELSE 0 END ) AS name11,
    SUM (CASE WHEN (b.name = 'name2') THEN b.val ::INTEGER ELSE 0 END ) AS name12
FROM
    database.myTable a,
    database.detail b,
    database.client c
WHERE
    a.id = b.id
    AND a.c_id = c.c_id
    AND a.date > current_date - interval '2 weeks'
GROUP BY 1, 2, 3, 4, 5, 6

以下是我如何将此查询转换为 Amazon redshift 查询。

SELECT a.id,
    b.val AS myGroup,
    c.username,
    a.someCode,
    a.timeTaken,
    convert_timezone('PST', a.date) AS date,
    SUM (CASE WHEN (b.name = 'name1') THEN b.val ::INTEGER ELSE 0 END ) AS name11,
    SUM (CASE WHEN (b.name = 'name2') THEN b.val ::INTEGER ELSE 0 END ) AS name12
FROM
    database.myTable a,
    database.detail b,
    database.client c
WHERE
    a.id = b.id
    AND b.name = 'blablah'
    AND a.c_id = c.c_id
    AND a.date > current_date - interval '2 weeks'
GROUP BY 1, 2, 3, 4, 5, 6 LIMIT 10

CASE 语句似乎没有按预期方式执行，基本上 name11 和 name12 的值都是零。我的 postgres 查询 returns 这些有效值，但 redshift 查询没有。

另外，这个查询非常非常慢。 Postgres 查询需要大约 150 毫秒，而这个查询需要 2 分钟。

我们怎样才能做得更好？

Answer 1

Redshift 查询优化来自集群，Table table 上的设计、数据加载、数据清理和分析。

我来回答上面列表中的一些核心接触点。 1. 确保您的 table 我的 table，详细信息，客户有适当的 SORT_KEY，DIST_KEY 2. 确保您加入的所有 table 都已正确分析和清理。

这是用 Redshift 格式编写的相同 SQL 的另一个版本。

我做的一些调整是

使用"With Clause"优化集群级计算
使用正确的连接方式并确保 left/right 连接很重要基于数据。
将 date_range 与子句 table 一起用于某种对象方向。
在下面的主要 SQL 中使用了 Group By。

我的 Redshift 版本 SQL

/** Date Range Computation **/
with date_range as (
    select ( current_Date - interval '2 weeks' ) as two_weeks
),
/** Filter main ResultSet**/
myGroupSet as (
    SELECT b.val AS myGroup,
           c.username,
           a.someCode,
           a.timeTaken,
           (case when (b.name == 'name1') THEN b.val::INTEGER ELSE 0 END ) as name11,
           (case when (b.name == 'name2') THEN b.val::INTEGER ELSE 0 END ) as name12
      FROM database.myTable a,
      join date_range dr on a.date > dr.two_weeks
      join database.detail b on b.id = a.id
      join database.client c on c.c_id = a.c_id
     where a.date > current_Date - interval '2 weeks'
)
/** Apply Aggregation **/
select myGroup, username, someCode, timeTaken, date,
       sum(name1), sum(name2)
  from myGroupSet
  group by myGroup, username, someCode, timeTaken, date

我如何在 Amazon redshift 中编写此 postgres 查询，使其像在 postgres 中一样优化？

How can I write this postgres query in Amazon redshift such that it is as optimized as it was in postgres?

sql

postgresql

amazon-redshift