查找 PostgreSQL 中一组之间的所有行
Find all rows in between a set in PostgreSQL
我有一个名为 tc_fuel
的 table 从 GPS 车辆接收所有与燃料相关的数据,我想得到最后一个 "Tank Usage" 来计算整个油箱的 MPG ,但是当水箱满时的读数(100)有时会在 2 行或 3 行或更多行后重复,所以我剩下 2 个 100 的值彼此相邻,我希望能够得到最后一个 "fillup" 开始和结束 ID。
我目前拥有的:
SELECT
"tc_fuel".deviceid,
"tc_fuel"."id",
"tc_fuel".fuel,
"tc_fuel"."fuelUsed",
"tc_fuel"."fuelUsed"
FROM "tc_fuel"
WHERE fuel=100
AND deviceid=19
ORDER BY ID
DESC LIMIT 2
然后我进入 PHP 检查 id 是否与它的 100 多条记录不同,以检查燃料值是否彼此相邻,但这比我想知道的要多做一些工作有没有更好的办法
例如这辆车从满油箱开始,然后下降到 6% 油箱并进行了满油箱加注,我希望能够获取最后一个油箱的所有数据。
id | deviceId | fuel
------+-----------+-------
1 | 19 | 100 <-- This should be starting point
2 | 19 | 97
3 | 19 | 100
4 | 19 | 96
5 | 19 | 94
6 | 19 | .... (keeps dropping)
7 | 19 | 33
8 | 19 | 31
9 | 19 | 30
10 | 19 | ....
11 | 19 | 6
12 | 19 | 5
13 | 19 | 6 <-- This should be end point (will flag this id as processed)
14 | 19 | 100 <-- Starts all over again in next iteration of the php script
15 | 19 | 99
16 | 19 | 98
17 | 19 | 100
18 | 19 | 99
19 | 19 | 97
20 | 19 | 96
21 | 19 | ....
"fillup"的定义有点模糊。当燃料值上升超过 50 时,我会假设它是加油。替换为您选择的数字。似乎新坦克必须以 fuel = 100
开头(尽管这是一个奇怪的条件)。我将其添加为评论 - 取消评论以激活:
SELECT *
FROM (
SELECT *, count(*) FILTER (WHERE fillup) OVER (PARTITION BY device_id ORDER BY id) AS tank
FROM (
SELECT *
, fuel - lag(fuel, 1, 0) OVER (PARTITION BY device_id ORDER BY id) > 50
-- AND fuel = 100 -- additional condition(s)?
AS fillup
FROM tbl
) sub1
) sub2
WHERE device_id = 19
AND tank = 1;
db<>fiddle here
在子查询 sub1
中,使用 window function lag()
计算每台设备上一个燃料条目与当前燃料条目之间的差异。值得注意的是,我使用带有 3 个参数的变体,提供 0 作为缺失行的默认值以覆盖每个分区的第一行。增加超过 50 表示有新的填充。
在子查询 sub2
中,使用另一个 window 函数计算随时间推移的填充数,从而为每个分配一个 "tank" 数字行。
在外面SELECT
,选择你的设备和"tank"填充的号码。瞧。
如果将条件 WHERE device_id = 19
移动到最里面的 suqbquery,则可以删除 PARTITION
子句。速度更快,通用性更差。
关于 FILTER
子句:
- How can I simplify this game statistics query?
- Conditional lead/lag function PostgreSQL?
只获取给定设备的最后一个罐
根据您的评论,定义为 "last time tank was filled from 20 or below to 100"。
我假设较晚的时间点对应于较高的 id
值。 (请注意,在并发写入负载下,串行列可能会出现极端情况。)
最简单的方法:倒序即可从下往上数:
SELECT *
FROM (
SELECT *, count(*) FILTER (WHERE fillup) OVER (ORDER BY id DESC) AS tank
FROM (
SELECT *, lag(fuel, 1, 0) OVER (ORDER BY id DESC) = 100
AND fuel <= 20 AS fillup
FROM tbl
WHERE device_id = 19
) sub1
) sub2
WHERE tank = 0
-- ORDER BY id -- optional to get result in ascending order
db<>fiddle here
为此,按程序遍历行可能会更快,因为它只需要一次通过,并且可以在找到第一个坦克后立即停止。
用 tbl(device_id, id DESC)
.
上的索引支持它
示例代码:
- GROUP BY and aggregate sequential numeric values
SELECT min(id) AS first_id,
max(id) AS last_id,
deviceid
FROM (SELECT id, deviceid, fuel,
count(*) FILTER (WHERE refilled)
OVER (PARTITION BY deviceid ORDER BY id DESC) AS filling
FROM (SELECT id, deviceid, fuel,
fuel < lead(luel, 1, 0)
OVER (PARTITION BY deviceid ORDER BY id) AS before_fill
FROM tc_fuel
) AS refill
) AS fills
WHERE filling = 1
GROUP BY deviceid;
首先,我在一个罐子加注之前标记条目。
然后,我通过计算这些标记来标记馅料:0 将是当前馅料,1 将是上一次馅料,依此类推。
最后,我得到了当前填充之前最后一个填充的第一个和最后一个id
。
将 WHERE deviceid = 19
放入最内层的查询以仅获取单个设备的数据。
我有一个名为 tc_fuel
的 table 从 GPS 车辆接收所有与燃料相关的数据,我想得到最后一个 "Tank Usage" 来计算整个油箱的 MPG ,但是当水箱满时的读数(100)有时会在 2 行或 3 行或更多行后重复,所以我剩下 2 个 100 的值彼此相邻,我希望能够得到最后一个 "fillup" 开始和结束 ID。
我目前拥有的:
SELECT
"tc_fuel".deviceid,
"tc_fuel"."id",
"tc_fuel".fuel,
"tc_fuel"."fuelUsed",
"tc_fuel"."fuelUsed"
FROM "tc_fuel"
WHERE fuel=100
AND deviceid=19
ORDER BY ID
DESC LIMIT 2
然后我进入 PHP 检查 id 是否与它的 100 多条记录不同,以检查燃料值是否彼此相邻,但这比我想知道的要多做一些工作有没有更好的办法
例如这辆车从满油箱开始,然后下降到 6% 油箱并进行了满油箱加注,我希望能够获取最后一个油箱的所有数据。
id | deviceId | fuel
------+-----------+-------
1 | 19 | 100 <-- This should be starting point
2 | 19 | 97
3 | 19 | 100
4 | 19 | 96
5 | 19 | 94
6 | 19 | .... (keeps dropping)
7 | 19 | 33
8 | 19 | 31
9 | 19 | 30
10 | 19 | ....
11 | 19 | 6
12 | 19 | 5
13 | 19 | 6 <-- This should be end point (will flag this id as processed)
14 | 19 | 100 <-- Starts all over again in next iteration of the php script
15 | 19 | 99
16 | 19 | 98
17 | 19 | 100
18 | 19 | 99
19 | 19 | 97
20 | 19 | 96
21 | 19 | ....
"fillup"的定义有点模糊。当燃料值上升超过 50 时,我会假设它是加油。替换为您选择的数字。似乎新坦克必须以 fuel = 100
开头(尽管这是一个奇怪的条件)。我将其添加为评论 - 取消评论以激活:
SELECT *
FROM (
SELECT *, count(*) FILTER (WHERE fillup) OVER (PARTITION BY device_id ORDER BY id) AS tank
FROM (
SELECT *
, fuel - lag(fuel, 1, 0) OVER (PARTITION BY device_id ORDER BY id) > 50
-- AND fuel = 100 -- additional condition(s)?
AS fillup
FROM tbl
) sub1
) sub2
WHERE device_id = 19
AND tank = 1;
db<>fiddle here
在子查询 sub1
中,使用 window function lag()
计算每台设备上一个燃料条目与当前燃料条目之间的差异。值得注意的是,我使用带有 3 个参数的变体,提供 0 作为缺失行的默认值以覆盖每个分区的第一行。增加超过 50 表示有新的填充。
在子查询 sub2
中,使用另一个 window 函数计算随时间推移的填充数,从而为每个分配一个 "tank" 数字行。
在外面SELECT
,选择你的设备和"tank"填充的号码。瞧。
如果将条件 WHERE device_id = 19
移动到最里面的 suqbquery,则可以删除 PARTITION
子句。速度更快,通用性更差。
关于 FILTER
子句:
- How can I simplify this game statistics query?
- Conditional lead/lag function PostgreSQL?
只获取给定设备的最后一个罐
根据您的评论,定义为 "last time tank was filled from 20 or below to 100"。
我假设较晚的时间点对应于较高的 id
值。 (请注意,在并发写入负载下,串行列可能会出现极端情况。)
最简单的方法:倒序即可从下往上数:
SELECT *
FROM (
SELECT *, count(*) FILTER (WHERE fillup) OVER (ORDER BY id DESC) AS tank
FROM (
SELECT *, lag(fuel, 1, 0) OVER (ORDER BY id DESC) = 100
AND fuel <= 20 AS fillup
FROM tbl
WHERE device_id = 19
) sub1
) sub2
WHERE tank = 0
-- ORDER BY id -- optional to get result in ascending order
db<>fiddle here
为此,按程序遍历行可能会更快,因为它只需要一次通过,并且可以在找到第一个坦克后立即停止。
用 tbl(device_id, id DESC)
.
示例代码:
- GROUP BY and aggregate sequential numeric values
SELECT min(id) AS first_id,
max(id) AS last_id,
deviceid
FROM (SELECT id, deviceid, fuel,
count(*) FILTER (WHERE refilled)
OVER (PARTITION BY deviceid ORDER BY id DESC) AS filling
FROM (SELECT id, deviceid, fuel,
fuel < lead(luel, 1, 0)
OVER (PARTITION BY deviceid ORDER BY id) AS before_fill
FROM tc_fuel
) AS refill
) AS fills
WHERE filling = 1
GROUP BY deviceid;
首先,我在一个罐子加注之前标记条目。
然后,我通过计算这些标记来标记馅料:0 将是当前馅料,1 将是上一次馅料,依此类推。
最后,我得到了当前填充之前最后一个填充的第一个和最后一个id
。
将 WHERE deviceid = 19
放入最内层的查询以仅获取单个设备的数据。