如何优化雪花上中等大类型 II table 的连接？

Question

背景

假设我有下表：

-- 33M rows
CREATE TABLE lkp.session (
    session_id BIGINT,
    visitor_id BIGINT,
    session_datetime TIMESTAMP
);

-- 17M rows
CREATE TABLE lkp.visitor_customer_hist (
    visitor_id BIGINT,
    customer_id BIGINT,
    from_datetime TIMESTAMP,
    to_datetime TIMESTAMP
);

Visitor_customer_hist 给出每个访问者在每个时间点有效的 customer_id。

目标是使用 visitor_id 和 session_datetime 查找对每个会话有效的客户 ID。

CREATE TABLE lkp.session_effective_customer AS
    SELECT
        s.session_id,
        vch.customer_id AS effective_customer_id
    FROM lkp.session s
    JOIN lkp.visitor_customer_hist vch ON vch.visitor_id = s.visitor_id
        AND s.session_datetime >= vch.from_datetime
        AND s.session_datetime < vch.to_datetime;

问题

即使仓库规模变大，此查询也非常慢。耗时 1h15m 完成，是仓库中唯一的查询运行。

我确认 visitor_customer_hist 中没有重叠值，重叠值的存在可能会导致重复连接。

雪花真的不擅长这种连接吗？我正在寻找关于如何为这种查询优化表、重新聚类或任何优化技术或重新处理查询的建议，例如也许是相关的子查询或其他东西。

附加信息

简介：

Answer 1

如果lkp.session table包含窄时间范围，并且 lkp.visitor_customer_hist table 包含 wide 时间范围，您可能会受益于重写查询以添加限制行范围的冗余条件加入：

CREATE TABLE lkp.session_effective_customer AS
SELECT
    s.session_id,
    vch.customer_id AS effective_customer_id
FROM lkp.session s
JOIN lkp.visitor_customer_hist vch ON vch.visitor_id = s.visitor_id
    AND s.session_datetime >= vch.from_datetime
    AND s.session_datetime < vch.to_datetime
WHERE vch.to_datetime >= (select min(session_datetime) from lkp.session)
    AND  vch.from_datetime <= (select max(session_datetime) from lkp.session);

另一方面，如果两个 table 涵盖相似的广泛日期范围并且随着时间的推移有大量客户与给定访问者关联，这将无济于事。

Answer 2

在之后，我们可以通过查看访客方面的最小值和最大值来对其进行更多过滤。像这样：

CREATE TEMPORARY TABLE _vch AS
    SELECT
        l.visitor_id,
        l.customer_id,
        l.from_datetime,
        l.to_datetime
    FROM (
             SELECT
                 l.visitor_id,
                 min(l.session_datetime) AS mindt,
                 max(l.session_datetime) AS maxdt
             FROM lkp.session l
             GROUP BY l.visitor_id
         ) a
    JOIN lkp.visitor_customer_hist l ON a.visitor_id = l.visitor_id
        AND l.from_datetime >= a.mindt
        AND l.to_datetime <= a.maxdt;

然后用我们更轻量级的 hist table，也许我们会有更好的运气：

CREATE TABLE lkp.session_effective_customer AS
    SELECT
        s.session_id,
        vch.customer_id AS effective_customer_id
    FROM lkp.session s
    JOIN _vch vch ON vch.visitor_id = s.visitor_id
        AND s.session_local_datetime >= vch.from_datetime
        AND s.session_local_datetime < vch.to_datetime;

不幸的是，就我而言，虽然我过滤掉了很大一部分行，但问题访问者（在 visitor_customer_hist 中有数千条记录的访问者）仍然存在问题（即他们仍然有数千条记录，导致加入爆炸）。

不过，在其他情况下，这可能会奏效。

Answer 3

如果两个 table 的每个访问者的记录数都很高，则此连接会出现问题，原因 Marcin 在评论中进行了描述。因此，对于这种情况，最好完全避免这种连接。

我最终解决这个问题的方法是 废弃 visitor_customer_hist table 并编写自定义 window 函数/udtf。

最初我创建了 lkp.visitor_customer_hist table 因为它可以使用现有的 window 函数创建，并且在非 MPP sql 数据库上可以创建适当的索引将使查找具有足够的性能。它是这样创建的：

CREATE TABLE lkp.visitor_customer_hist AS
    SELECT
        a.visitor_id AS visitor_id,
        a.customer_id AS customer_id,
        nvl(lag(a.session_datetime) OVER ( PARTITION BY a.visitor_id
            ORDER BY a.session_datetime ), '1900-01-01') AS from_datetime,
        CASE WHEN lead(a.session_datetime) OVER ( PARTITION BY a.visitor_id
            ORDER BY a.session_datetime ) IS NULL THEN '9999-12-31'
        ELSE a.session_datetime END AS to_datetime
    FROM (
             SELECT
                 s.session_id,
                 vs.visitor_id,
                 customer_id,
                 row_number() OVER ( PARTITION BY vs.visitor_id, s.session_datetime
                     ORDER BY s.session_id ) AS rn,
                 lead(s.customer_id) OVER ( PARTITION BY vs.visitor_id
                     ORDER BY s.session_datetime ) AS next_cust_id,
                 session_datetime
             FROM "session" s
             JOIN "visitor_session" vs ON vs.session_id = s.session_id
             WHERE s.customer_id <> -2
         ) a
    WHERE (a.next_cust_id <> a.customer_id
        OR a.next_cust_id IS NULL) AND a.rn = 1;

所以，放弃这种方法，我改为编写了以下 UDTF：

CREATE OR REPLACE FUNCTION udtf_eff_customer(customer_id FLOAT)
    RETURNS TABLE(effective_customer_id FLOAT)
LANGUAGE JAVASCRIPT
IMMUTABLE
AS '
{
    initialize: function() {
        this.customer_id = -1;
    },

    processRow: function (row, rowWriter, context) {
        if (row.CUSTOMER_ID != -1) {
            this.customer_id = row.CUSTOMER_ID;
        }
        rowWriter.writeRow({EFFECTIVE_CUSTOMER_ID:  this.customer_id});
    },

    finalize: function (rowWriter, context) {/*...*/},
}
';

并且可以这样应用：

SELECT
    iff(a.customer_id <> -1, a.customer_id, ec.effective_customer_id) AS customer_id,
    a.session_id
FROM "session" a
JOIN table(udtf_eff_customer(nvl2(a.visitor_id, a.customer_id, NULL) :: DOUBLE) OVER ( PARTITION BY a.visitor_id
    ORDER BY a.session_datetime DESC )) ec

所以这实现了预期的结果：对于每个会话，如果 customer_id 不是 "unknown"，那么我们继续使用它；否则，我们使用可以与该访问者关联的下一个 customer_id（如果存在）（按会话时间排序）。

这是比创建查找更好的解决方案 table；它基本上只需要通过一次数据，需要更少的代码/复杂性，并且速度非常快。

如何优化雪花上中等大类型 II table 的连接？

How to optimize a join to a moderately large type II table on snowflake?

snowflake-cloud-data-platform