PostgreSQL 交叉表 - 列数可变

PostgreSQL Crosstab - variable number of columns

在尝试向 MS Access 用户宣传徒手学习 SQL 的好处时,我遇到的一个常见问题是以 Access 的方式创建交叉表查询效果的复杂性。我意识到严格来说,在 SQL 中它不是那样工作的——它在 Access 中可行的原因是因为它正在处理数据的呈现。

具体来说,当我有一个包含实体、日期和数量的 table 时,我们经常希望在一行中看到单个实体,日期表示为列:

这个:

entity       date      qty
------       --------  ---
278700-002   1/1/2016  5
278700-002   2/1/2016  3
278700-002   2/1/2016  8
278700-002   3/1/2016  1
278700-003   2/1/2016  12

变成这样:

Entity      1/1/16   2/1/16   3/1/16
----------  ------   ------   ------
278700-002    5       11        1
278700-003            12

也就是说,我们处理此问题的常用方法与此类似:

with vals as (
  select
    entity,
    case when order_date = '2016-01-01' then qty else 0 end as q16_01,
    case when order_date = '2016-02-01' then qty else 0 end as q16_02,
    case when order_date = '2016-03-01' then qty else 0 end as q16_02
  from mydata
)
select
  entity, sum (q16_01) as q16_01, sum (q16_02) as q16_02, sum (q16_03) as q16_03
from vals
group by entity

这里过于简单化了,但我相信大多数人都能理解我的意思。

这方面的主要问题不是列数的限制——数据通常是有界的,我可以使用固定数量的日期列——36 个月,或其他,取决于数据的上下文。我的问题是我必须每个月更改日期才能完成这项工作。

我有一个想法,我可以利用数组根据距当前日期的月份动态地将数量分配给数组的索引。以这种方式,我的数据最终将如下所示:

Entity      Values
----------  ------
278700-002  {5,11,1}
278700-003  {0,12,0}

这完全可以接受table,因为我可以在我使用的任何呈现工具(例如Excel)中管理实际列的呈现。

问题是我被卡住了...我如何从我的数据中得到这个。如果这是 Perl,我会遍历数据并执行如下操作:

foreach my $ref (@data) {
  my ($entity, $month_offset, $qty) = @$ref;
  $values{$entity}->[$month_offset] += $qty;
}

这不是 Perl...到目前为止,这就是我所拥有的,现在我处于精神僵局。

with offset as (
  select
    entity, order_date, qty,
    (extract (year from order_date ) - 2015) * 12 +
     extract (month from order_date ) - 9 as month_offset,
    array[]::integer[] as values
  from mydata
)
select
  prod_id, playgrd_dte, -- oh my...  how do I load into my array?
from fcst

“2015”和“9”并不是真正的硬编码——为了简单起见,我将它们放在那里作为示例。

此外,如果我的方法或假设完全错误,我相信有人会纠正我。

对于所有可以想象和无法想象的事情,PostgreSQL 有一种方法可以做到这一点。它看起来像这样:

WITH cte AS (
  WITH minmax AS (
    SELECT min(extract(month from order_date))::int,
           max(extract(month from order_date))::int
    FROM mytable
  )
  SELECT entity, mon, 0 AS qty
  FROM (SELECT DISTINCT entity FROM mytable) entities,
       (SELECT generate_series(min, max) AS mon FROM minmax) allmonths
  UNION
  SELECT entity, extract(month from order_date)::int, qty FROM mytable
)
SELECT entity, array_agg(sum) AS values
FROM (
  SELECT entity, mon, sum(qty) FROM cte
  GROUP BY 1, 2) sub
GROUP BY 1
ORDER BY 1;

几句解释:

在 SQL 语句中生成数组的标准方法是使用 array_agg() 函数。您的问题是您有几个月没有数据,然后 array_agg() 很高兴地什么也没有产生,给您留下了长度不等的数组,并且没有关于数据来自哪个时间段的信息。您可以通过为 'entity' 和感兴趣期间的月份的每个组合添加 0 来解决此问题。这就是这段代码的作用:

SELECT entity, mon, 0 AS qty
FROM (SELECT DISTINCT entity FROM mytable) entities,
     (SELECT generate_series(min, max) AS mon FROM minmax) allmonths

所有这些 0 都被 UNION 编辑为来自 'mytable' 的实际数据,然后(在主查询中)您可以首先按实体和月份对数量求和,然后将这些总和汇总到每个实体的数组。由于它是双重聚合,因此您需要子查询。 (您也可以对 UNION 中的数量求和,但是您还需要一个子查询,因为 UNION 不允许聚合。)

可以调整 minmax CTE 以包括年份(您的样本数据不需要它)。请注意,实际的 minmax 值对数组中的索引无关紧要:如果 min 是 743,它仍将占据数组中的第一个位置;这些值仅用于 GROUPing,不用于索引。

SQLFiddle

为了便于使用,您可以将此查询包装在一个 SQL 语言函数中,并带有开始和结束月份的参数。调整 minmax CTE 为 generate_series() 调用生成适当的 minmax 值,并在 UNION 中过滤来自 'mytable' 的行考虑过。