交叉连接两个大表以获得 运行 总数的有效替代方法是什么?
What is an efficient alternative to cross join two large tables to get running total?
我有 2 个 table,其架构如下:
table1
event_dt
6/30/2018
7/1/2018
7/2/2018
7/3/2018
7/4/2018
7/5/2018
7/6/2018
7/7/2018
7/8/2018
7/9/2018
7/10/2018
table:2
event_dt time(in seconds)
7/7/2018 144
7/8/2018 63
7/1/2018 47
7/8/2018 81
7/9/2018 263
7/7/2018 119
7/8/2018 130
7/9/2018 206
7/5/2018 134
7/1/2018 140
对于 table 1 中的每个日期,我想找到截至该日期的累计时间总和。所以我使用交叉连接使用以下代码获取输出:
select t1.event_dt, sum(t2.time)
from yp1 t1 cross join yp2 t2
where t1.event_dt>=t2.event_dt
group by t1.event_dt
使用此查询,我能够获得 table 1 中每个日期的累计 运行 总数,只要那天之前有事件。例如,第一个事件日期是 07/01/2018 但 table1 中的第一个日期是 06/30/2018 因此在最终输出中 6/30/2018 不会出现。
此方法的问题是交叉连接花费的时间太长,我有数百万条记录,因为每 6 秒进行一次观察。那么有没有一种方法可以在没有交叉连接的情况下获得相同的结果,或者就此而言,任何更有效的方法。
我认为最好的方法是使用SQL的累加函数:
select event_dt, running_time
from (select event_dt, time, sum(time) over (order by event_dt) as running_time
from ((select event_dt, null as time
from t1
) union all
(select event_dt, time
from t2
)
) tt
) tt
where time is null;
我有 2 个 table,其架构如下: table1
event_dt
6/30/2018
7/1/2018
7/2/2018
7/3/2018
7/4/2018
7/5/2018
7/6/2018
7/7/2018
7/8/2018
7/9/2018
7/10/2018
table:2
event_dt time(in seconds)
7/7/2018 144
7/8/2018 63
7/1/2018 47
7/8/2018 81
7/9/2018 263
7/7/2018 119
7/8/2018 130
7/9/2018 206
7/5/2018 134
7/1/2018 140
对于 table 1 中的每个日期,我想找到截至该日期的累计时间总和。所以我使用交叉连接使用以下代码获取输出:
select t1.event_dt, sum(t2.time)
from yp1 t1 cross join yp2 t2
where t1.event_dt>=t2.event_dt
group by t1.event_dt
使用此查询,我能够获得 table 1 中每个日期的累计 运行 总数,只要那天之前有事件。例如,第一个事件日期是 07/01/2018 但 table1 中的第一个日期是 06/30/2018 因此在最终输出中 6/30/2018 不会出现。
此方法的问题是交叉连接花费的时间太长,我有数百万条记录,因为每 6 秒进行一次观察。那么有没有一种方法可以在没有交叉连接的情况下获得相同的结果,或者就此而言,任何更有效的方法。
我认为最好的方法是使用SQL的累加函数:
select event_dt, running_time
from (select event_dt, time, sum(time) over (order by event_dt) as running_time
from ((select event_dt, null as time
from t1
) union all
(select event_dt, time
from t2
)
) tt
) tt
where time is null;