过滤对具有多个值的 crosstab() 查询结果的意外影响
Unexpected effect of filtering on result from crosstab() query with multiple values
我有一个 crosstab()
查询类似于我在上一个问题中的查询:
常见情况是过滤具有多个值的 extra1
字段:extra1 IN(value1, value2...)
。对于 extra1
过滤器中包含的每个值,我都添加了一个排序表达式,如 (extra1 <> valueN)
,如上面提到的 post 所示。结果查询如下:
SELECT *
FROM crosstab(
'SELECT row_name, extra1, extra2..., another_table.category, value
FROM table t
JOIN another_table ON t.field_id = another_table.field_id
WHERE t.field = certain_value AND t.extra1 IN (val1, val2, ...) --> more values
ORDER BY row_name ASC, (extra1 <> val1), (extra1 <> val2)', ... --> more ordering expressions
'SELECT category_name FROM category_name WHERE field = certain_value'
) AS ct(extra1, extra2...)
WHERE extra1 = val1; --> condition on the result
排序表达式 value1
中包含的 extra1
的第一个值,得到正确的结果行。但是,以下 value2
、value3
... 得到错误的结果数,导致每个结果的行数较少。这是为什么?
更新:
将此作为我们的来源 table (table t
):
+----------+--------+--------+------------------------+-------+
| row_name | Extra1 | Extra2 | another_table.category | value |
+----------+--------+--------+------------------------+-------+
| Name1 | 10 | A | 1 | 100 |
| Name2 | 11 | B | 2 | 200 |
| Name3 | 12 | C | 3 | 150 |
| Name2 | 11 | B | 3 | 150 |
| Name3 | 12 | C | 2 | 150 |
| Name1 | 10 | A | 2 | 100 |
| Name3 | 12 | C | 1 | 120 |
+----------+--------+--------+------------------------+-------+
这是我们的类别table:
+-------------+--------+
| category_id | value |
+-------------+--------+
| 1 | Cat1 |
| 2 | Cat2 |
| 3 | Cat3 |
+-------------+--------+
使用 CROSSTAB
,想法是得到这样的 table:
+----------+--------+--------+------+------+------+
| row_name | Extra1 | Extra2 | cat1 | cat2 | cat3 |
+----------+--------+--------+------+------+------+
| Name1 | 10 | A | 100 | 100 | |
| Name2 | 11 | B | | 200 | 150 |
| Name3 | 12 | C | 120 | 150 | 150 |
+----------+--------+--------+------+------+------+
我的想法是能够过滤结果 table 所以我得到 Extra1
列的结果,其值为 10
或 11
,如下所示:
+----------+--------+--------+------+------+------+
| row_name | Extra1 | Extra2 | cat1 | cat2 | cat3 |
+----------+--------+--------+------+------+------+
| Name1 | 10 | A | 100 | 100 | |
| Name2 | 11 | B | | 200 | 150 |
+----------+--------+--------+------+------+------+
问题是,在我的查询中,Extra1
的结果大小与 10
的结果大小不同,Extra1
的结果大小与 11
的结果大小不同。使用 (Extra1 <> 10)
我可以在 Extra1
上获得该值的正确结果大小,但在 11
作为值的情况下则不能。
这里 fiddle 更详细地演示了该问题:
https://dbfiddle.uk/?rdbms=postgres_11&fiddle=5c401f7512d52405923374c75cb7ff04
所有 "extra" 列都是从组的 第一行 复制的(如 中指出)
当您过滤时:
.... WHERE extra1 = 'val1';
...在同一列上添加更多 ORDER BY
表达式毫无意义。只有源组中至少有一个 extra1 = 'val1'
的行才能存活。
根据您的各种评论,我猜您可能希望在 WHERE
子句中过滤的集合中查看 所有 个不同的 extra
现有值- 对于相同的 unixdatetime
。如果是这样,在 旋转之前聚合 。喜欢:
SELECT *
FROM crosstab(
$$
SELECT unixdatetime, x.extras, c.name, s.value
FROM (
SELECT unixdatetime, array_agg(extra) AS extras
FROM (
SELECT DISTINCT unixdatetime, extra
FROM source_table s
WHERE extra IN (1, 2) -- condition moves here
ORDER BY unixdatetime, extra
) sub
GROUP BY 1
) x
JOIN source_table s USING (unixdatetime)
JOIN category_table c ON c.id = s.gausesummaryid
ORDER BY 1
$$
, $$SELECT unnest('{trace1,trace2,trace3,trace4}'::text[])$$
) AS final_result (unixdatetime int
, extras int[]
, trace1 numeric
, trace2 numeric
, trace3 numeric
, trace4 numeric);
旁白:以下相关答案中关于第二个函数参数的建议也适用于您的情况:
- PostgreSQL crosstab doesn't work as desired
我在上面演示了一个静态的第二个参数查询。在进行时,您根本不需要加入 category_table
。同样,更短更快,然而:
SELECT *
FROM crosstab(
$$
SELECT unixdatetime, x.extras, s.gausesummaryid, s.value
FROM (
SELECT unixdatetime, array_agg(extra) AS extras
FROM (
SELECT DISTINCT unixdatetime, extra
FROM source_table
WHERE extra IN (1, 2) -- condition moves here
ORDER BY unixdatetime, extra
) sub
GROUP BY 1
) x
JOIN source_table s USING (unixdatetime)
ORDER BY 1
$$
, $$SELECT unnest('{923,924,926,927}'::int[])$$
) AS final_result (unixdatetime int
, extras int[]
, trace1 numeric
, trace2 numeric
, trace3 numeric
, trace4 numeric);
db<>fiddle here - 在您的 fiddle.
底部添加了我的查询
我有一个 crosstab()
查询类似于我在上一个问题中的查询:
常见情况是过滤具有多个值的 extra1
字段:extra1 IN(value1, value2...)
。对于 extra1
过滤器中包含的每个值,我都添加了一个排序表达式,如 (extra1 <> valueN)
,如上面提到的 post 所示。结果查询如下:
SELECT *
FROM crosstab(
'SELECT row_name, extra1, extra2..., another_table.category, value
FROM table t
JOIN another_table ON t.field_id = another_table.field_id
WHERE t.field = certain_value AND t.extra1 IN (val1, val2, ...) --> more values
ORDER BY row_name ASC, (extra1 <> val1), (extra1 <> val2)', ... --> more ordering expressions
'SELECT category_name FROM category_name WHERE field = certain_value'
) AS ct(extra1, extra2...)
WHERE extra1 = val1; --> condition on the result
排序表达式 value1
中包含的 extra1
的第一个值,得到正确的结果行。但是,以下 value2
、value3
... 得到错误的结果数,导致每个结果的行数较少。这是为什么?
更新:
将此作为我们的来源 table (table t
):
+----------+--------+--------+------------------------+-------+
| row_name | Extra1 | Extra2 | another_table.category | value |
+----------+--------+--------+------------------------+-------+
| Name1 | 10 | A | 1 | 100 |
| Name2 | 11 | B | 2 | 200 |
| Name3 | 12 | C | 3 | 150 |
| Name2 | 11 | B | 3 | 150 |
| Name3 | 12 | C | 2 | 150 |
| Name1 | 10 | A | 2 | 100 |
| Name3 | 12 | C | 1 | 120 |
+----------+--------+--------+------------------------+-------+
这是我们的类别table:
+-------------+--------+
| category_id | value |
+-------------+--------+
| 1 | Cat1 |
| 2 | Cat2 |
| 3 | Cat3 |
+-------------+--------+
使用 CROSSTAB
,想法是得到这样的 table:
+----------+--------+--------+------+------+------+
| row_name | Extra1 | Extra2 | cat1 | cat2 | cat3 |
+----------+--------+--------+------+------+------+
| Name1 | 10 | A | 100 | 100 | |
| Name2 | 11 | B | | 200 | 150 |
| Name3 | 12 | C | 120 | 150 | 150 |
+----------+--------+--------+------+------+------+
我的想法是能够过滤结果 table 所以我得到 Extra1
列的结果,其值为 10
或 11
,如下所示:
+----------+--------+--------+------+------+------+
| row_name | Extra1 | Extra2 | cat1 | cat2 | cat3 |
+----------+--------+--------+------+------+------+
| Name1 | 10 | A | 100 | 100 | |
| Name2 | 11 | B | | 200 | 150 |
+----------+--------+--------+------+------+------+
问题是,在我的查询中,Extra1
的结果大小与 10
的结果大小不同,Extra1
的结果大小与 11
的结果大小不同。使用 (Extra1 <> 10)
我可以在 Extra1
上获得该值的正确结果大小,但在 11
作为值的情况下则不能。
这里 fiddle 更详细地演示了该问题:
https://dbfiddle.uk/?rdbms=postgres_11&fiddle=5c401f7512d52405923374c75cb7ff04
所有 "extra" 列都是从组的 第一行 复制的(如
当您过滤时:
.... WHERE extra1 = 'val1';
...在同一列上添加更多 ORDER BY
表达式毫无意义。只有源组中至少有一个 extra1 = 'val1'
的行才能存活。
根据您的各种评论,我猜您可能希望在 WHERE
子句中过滤的集合中查看 所有 个不同的 extra
现有值- 对于相同的 unixdatetime
。如果是这样,在 旋转之前聚合 。喜欢:
SELECT *
FROM crosstab(
$$
SELECT unixdatetime, x.extras, c.name, s.value
FROM (
SELECT unixdatetime, array_agg(extra) AS extras
FROM (
SELECT DISTINCT unixdatetime, extra
FROM source_table s
WHERE extra IN (1, 2) -- condition moves here
ORDER BY unixdatetime, extra
) sub
GROUP BY 1
) x
JOIN source_table s USING (unixdatetime)
JOIN category_table c ON c.id = s.gausesummaryid
ORDER BY 1
$$
, $$SELECT unnest('{trace1,trace2,trace3,trace4}'::text[])$$
) AS final_result (unixdatetime int
, extras int[]
, trace1 numeric
, trace2 numeric
, trace3 numeric
, trace4 numeric);
旁白:以下相关答案中关于第二个函数参数的建议也适用于您的情况:
- PostgreSQL crosstab doesn't work as desired
我在上面演示了一个静态的第二个参数查询。在进行时,您根本不需要加入 category_table
。同样,更短更快,然而:
SELECT *
FROM crosstab(
$$
SELECT unixdatetime, x.extras, s.gausesummaryid, s.value
FROM (
SELECT unixdatetime, array_agg(extra) AS extras
FROM (
SELECT DISTINCT unixdatetime, extra
FROM source_table
WHERE extra IN (1, 2) -- condition moves here
ORDER BY unixdatetime, extra
) sub
GROUP BY 1
) x
JOIN source_table s USING (unixdatetime)
ORDER BY 1
$$
, $$SELECT unnest('{923,924,926,927}'::int[])$$
) AS final_result (unixdatetime int
, extras int[]
, trace1 numeric
, trace2 numeric
, trace3 numeric
, trace4 numeric);
db<>fiddle here - 在您的 fiddle.
底部添加了我的查询