如何访问自定义 SQL 标量函数中的前几行?

How to access previous rows in custom SQL scalar function?

我想编写自己的 SQL 标量函数,该函数基于第二列计算可变行数上单个列的数据点之间的平均值。我设想这个函数看起来像 WINDOWMEAN(data, mileage, 100)。这将计算所有 datamileage 距离当前行 100 英里以内的行的平均值。

示例:

| data | mileage | 
|  10  |  1000   |
|  15  |  1009   |
|  20  |  1056   |
|  16  |  1098   |
|  13  |  1130   |
|  14  |  1200   |

对于像 SELECT WINDOWMEAN(data, mileage, 100) AS a FROM t 这样的查询,我希望:

| data | mileage | a    |
|  10  |  1000   | 10   |
|  15  |  1009   | 12.5 |
|  20  |  1056   | 15   |
|  16  |  1098   | 15.25|
|  13  |  1130   | 16.33|
|  14  |  1200   | 13.5 |

a 计算每一行,作为当前行之前 mileage 100 英里内所有行的平均值。

我遇到困难的地方是如何访问自定义 SQL 函数中的前几行。我不确定我试图完成的事情是否可行,因为我还没有找到以这种方式访问​​其他行的文档。

无论是否特定于此解决方案,是否有任何方法可以访问自定义 SQL 标量函数中的前几行?

(我可以假设行是按里程排序的)

在 SQL 服务器中可以使用 Window 函数 ROW_NUMBER 此功能适用于 sqlite ROW_NUMBER,但我不确定它是否有效。

DECLARE @t TABLE (data int ,mileage int)

--SOME DATA
INSERT INTO @t
VALUES (10,1000),
        (15,1009),
        (20,1056)

--Replace @t by the real table name

;WITH TableWithRow(data, mileage, r)
AS
(
    SELECT data, mileage, ROW_NUMBER() OVER (ORDER BY data) 
    FROM @t
)
SELECT c.data, c.mileage, p.data previousData, p.mileage previousmileage
FROM TableWithRow c
LEFT OUTER JOIN TableWithRow p on c.r-1 = p.r

---WITHOUT CTE (bad performance)
SELECT c.data, c.mileage, p.data previousData, p.mileage previousmileage
FROM (
    SELECT data, mileage, ROW_NUMBER() OVER (ORDER BY data) r
    FROM @t
) c
LEFT OUTER JOIN (
    SELECT data, mileage, ROW_NUMBER() OVER (ORDER BY data) r
    FROM @t
) p on c.r-1 = p.r

您可以使用具有适当 RANGE 框架定义的 window 函数将 window 限制为当前行 100 英里以内的行:

SELECT data, mileage
     , avg(data) OVER (ORDER BY mileage RANGE BETWEEN 100 PRECEDING AND CURRENT ROW) AS a
FROM t
ORDER BY mileage;
data        mileage     a
----------  ----------  ----------
10          1000        10.0
15          1009        12.5
20          1056        15.0
16          1098        15.25
13          1130        16.3333333
14          1200        13.5

备注:

此查询需要 Sqlite 3.28 或更新版本,因为该版本对 window 函数进行了一些重大改进,除其他外,允许这样的数字范围。

为获得最佳结果,请在 t(mileage) 上创建索引或在 t(mileage, data) 上创建覆盖索引。


使用相关子查询的非window函数版本(也可以更好地使用该索引):

SELECT data, mileage
     , (SELECT avg(t2.data) FROM t AS t2
        WHERE t2.mileage BETWEEN t1.mileage - 100 AND t1.mileage) AS a
FROM t AS t1
ORDER BY mileage;