如何编写查询以将行号（1 到 n）附加到每个组的每个记录

Question

我有一个类似下面的数据集

|date|flag|
|20190503|0|
|20190504|1|
|20190505|1|
|20190506|1|
|20190507|1|
|20190508|0|
|20190509|0|
|20190510|0|
|20190511|1|
|20190512|1|
|20190513|0|
|20190514|0|
|20190515|1|

我想要实现的是将连续的日期按flag=1分组，并在flag=1的连续日期的第一天添加一列计数器标记1，第二天标记2等, 为 flag=0

分配 0

|date|flag|counter|
|20190503|0|0|
|20190504|1|1|
|20190505|1|2|
|20190506|1|3|
|20190507|1|4|
|20190508|0|0|
|20190509|0|0|
|20190510|0|0|
|20190511|1|1|
|20190512|1|2|
|20190513|0|0|
|20190514|0|0|
|20190515|1|1|

我尝试了解析函数和层级查询，但仍然没有找到解决方案，寻求帮助，不胜感激！

谢谢，红

Answer 1

您可以使用零的累积和来定义组。然后使用 row_number():

select t.*,
       (case when flag = 0 then 0
             else row_number() over (partition by grp order by date)
        end) as counter
from (select t.*,
             sum(case when flag = 0 then 1 else 0 end) over (order by date) as grp
      from t
     ) t;

一种非常不同的方法是取当前日期与 flag = 0 日期的累计最大值之间的差异：

select t.*,
       datediff(day,
                max(case when flag = 0 then date end) over (order by date),
                date
               ) as counter
from t;

请注意，这两种方法的逻辑是不同的——尽管它们对您提供的数据应该产生相同的结果。对于缺失的日期，第一个只是忽略缺失的日期。第二个将增加缺少日期的计数器。

Answer 2

好吧 - Vertica 有一个非常好的 CONDITIONAL_CHANGE_EVENT() 函数可以帮助你...

每次括号之间的表达式发生变化时，一个整数都会递增 1。每次 flag 发生变化时，这都会为您提供一个新的组标识符或 PARTITION BY 的条件。所以一个 SELECT 得到分组信息，然后根据得到的分组信息进行分区。这里是：

WITH
input(dt,flag) AS (
          SELECT '2019-05-03'::DATE,0
UNION ALL SELECT '2019-05-04'::DATE,1
UNION ALL SELECT '2019-05-05'::DATE,1
UNION ALL SELECT '2019-05-06'::DATE,1
UNION ALL SELECT '2019-05-07'::DATE,1
UNION ALL SELECT '2019-05-08'::DATE,0
UNION ALL SELECT '2019-05-09'::DATE,0
UNION ALL SELECT '2019-05-10'::DATE,0
UNION ALL SELECT '2019-05-11'::DATE,1
UNION ALL SELECT '2019-05-12'::DATE,1
UNION ALL SELECT '2019-05-13'::DATE,0
UNION ALL SELECT '2019-05-14'::DATE,0
UNION ALL SELECT '2019-05-15'::DATE,1
)
,
grp_input AS (
SELECT
*
, CONDITIONAL_CHANGE_EVENT(flag) OVER(ORDER BY dt) AS grp
FROM input
)
SELECT
dt
, flag
, CASE FLAG
WHEN 0 THEN 0
ELSE ROW_NUMBER() OVER(PARTITION BY grp ORDER BY dt)
END AS counter
FROM grp_input;
-- out      dt     | flag | counter 
-- out ------------+------+---------
-- out  2019-05-03 |    0 |       0
-- out  2019-05-04 |    1 |       1
-- out  2019-05-05 |    1 |       2
-- out  2019-05-06 |    1 |       3
-- out  2019-05-07 |    1 |       4
-- out  2019-05-08 |    0 |       0
-- out  2019-05-09 |    0 |       0
-- out  2019-05-10 |    0 |       0
-- out  2019-05-11 |    1 |       1
-- out  2019-05-12 |    1 |       2
-- out  2019-05-13 |    0 |       0
-- out  2019-05-14 |    0 |       0
-- out  2019-05-15 |    1 |       1
-- out (13 rows)
-- out

如何编写查询以将行号（1 到 n）附加到每个组的每个记录

How to write a query to attach rownumber(1 to n) to each records for each group

sql

vertica