按 BigQuery 中的连续时间段对值进行分组
Group values by continuous periods in BigQuery
考虑这个 BigQuery 架构 table:
+---------------------------------------+
|ServiceId |UserId |Date |
+---------------------------------------+
|s1 |u1 |2016|09|01 00:00:00 |
|s1 |u1 |2016|09|02 00:00:00 |
|s1 |u2 |2016|09|02 12:00:00 |
|s1 |u2 |2016|09|05 00:00:00 |
|s1 |u1 |2016|09|10 12:00:00 |
|s2 |u1 |2016|09|06 00:00:00 |
|s2 |u2 |2016|09|10 00:00:00 |
|s2 |u2 |2016|09|10 12:00:00 |
|s2 |u2 |2016|09|11 12:00:00 |
+---------------------------------------+
它说明了已识别用户对系统某些资源的使用情况。它就像一个活动日志。
我需要一个查询来检索资源随时间的连续使用情况。由于 table 不包含 "start" 和 "end" 日期,因此结束被视为该期间的最后记录日。
如果两个日期最多相隔 24 小时,则视为连续。
这是具有给定 table:
的此类查询的预期输出
+-------------------------------------------------------------+
|ServiceId |UserId |StartDate |EndDate |
+-------------------------------------------------------------+
|s1 |u1 |2016|09|01 00:00:00 |2016|09|02 00:00:00 |
|s1 |u2 |2016|09|02 12:00:00 |2016|09|02 12:00:00 |
|s1 |u2 |2016|09|05 00:00:00 |2016|09|05 00:00:00 |
|s1 |u1 |2016|09|10 12:00:00 |2016|09|10 12:00:00 |
|s2 |u1 |2016|09|06 00:00:00 |2016|09|06 00:00:00 |
|s2 |u2 |2016|09|10 00:00:00 |2016|09|11 12:00:00 |
+-------------------------------------------------------------+
换句话说:我需要确定用户持续使用服务的时间段。
BigQuery (here and here) 上 window 函数的文档没有此类用例的明确示例(事实上,他们根本没有带日期的示例) .
如何使用 BigQuery 做到这一点?
谢谢。
嗯。 . .我认为它看起来像这样:
select serviceid, userid, min(date), max(date)
from (select t.*,
sum(case when dateadd(prev_date, 1, "hour") < date then 1 else 0 end) over (partition by serviceid, userid order by date) as grp
from (select t.*,
lag(date) over (partition by serviceid, userid order by date) as prev_date
from t
) t
) t
group by serviceid, userid, grp;
它的作用是识别何时有超过 1 小时的休息时间,并在发生这种情况时分配标志 1。然后它对标志进行累加和并将其用于聚合。
考虑这个 BigQuery 架构 table:
+---------------------------------------+
|ServiceId |UserId |Date |
+---------------------------------------+
|s1 |u1 |2016|09|01 00:00:00 |
|s1 |u1 |2016|09|02 00:00:00 |
|s1 |u2 |2016|09|02 12:00:00 |
|s1 |u2 |2016|09|05 00:00:00 |
|s1 |u1 |2016|09|10 12:00:00 |
|s2 |u1 |2016|09|06 00:00:00 |
|s2 |u2 |2016|09|10 00:00:00 |
|s2 |u2 |2016|09|10 12:00:00 |
|s2 |u2 |2016|09|11 12:00:00 |
+---------------------------------------+
它说明了已识别用户对系统某些资源的使用情况。它就像一个活动日志。
我需要一个查询来检索资源随时间的连续使用情况。由于 table 不包含 "start" 和 "end" 日期,因此结束被视为该期间的最后记录日。
如果两个日期最多相隔 24 小时,则视为连续。
这是具有给定 table:
的此类查询的预期输出+-------------------------------------------------------------+
|ServiceId |UserId |StartDate |EndDate |
+-------------------------------------------------------------+
|s1 |u1 |2016|09|01 00:00:00 |2016|09|02 00:00:00 |
|s1 |u2 |2016|09|02 12:00:00 |2016|09|02 12:00:00 |
|s1 |u2 |2016|09|05 00:00:00 |2016|09|05 00:00:00 |
|s1 |u1 |2016|09|10 12:00:00 |2016|09|10 12:00:00 |
|s2 |u1 |2016|09|06 00:00:00 |2016|09|06 00:00:00 |
|s2 |u2 |2016|09|10 00:00:00 |2016|09|11 12:00:00 |
+-------------------------------------------------------------+
换句话说:我需要确定用户持续使用服务的时间段。
BigQuery (here and here) 上 window 函数的文档没有此类用例的明确示例(事实上,他们根本没有带日期的示例) .
如何使用 BigQuery 做到这一点?
谢谢。
嗯。 . .我认为它看起来像这样:
select serviceid, userid, min(date), max(date)
from (select t.*,
sum(case when dateadd(prev_date, 1, "hour") < date then 1 else 0 end) over (partition by serviceid, userid order by date) as grp
from (select t.*,
lag(date) over (partition by serviceid, userid order by date) as prev_date
from t
) t
) t
group by serviceid, userid, grp;
它的作用是识别何时有超过 1 小时的休息时间,并在发生这种情况时分配标志 1。然后它对标志进行累加和并将其用于聚合。