如何根据日期删除重叠行并在 sql 中保留最新行?
How to remove overlapping rows based on date and keep most recent in sql?
我需要为每位患者找到所有 episode_ids。但是,当在前一集的 90 天内出现重叠情节时,我只想保留最近的一集。
例如下面的patient_num 3242
有3集:第二集与第一集在90天内重叠,第三集与第二集在90天内重叠,在这种情况下我只需要保留第3集。
CREATE TABLE table1 (episode_id nvarchar(max), patient_num nvarchar(max), admit_date date, discharge_date date)
INSERT INTO table1 (episode_id, patient_num , admit_date , discharge_date ) VALUES
('1','5743','1/1/2016','1/5/2016'),
('2','5743','4/26/2016','4/29/2016'),
('3','5743','5/26/2016','5/28/2016'),
('4','5743','9/21/2016','9/28/2016'),
('5','8859','4/27/2016','5/5/2016'),
('6','3242','4/28/2016','4/29/2016'),
('7','3242','11/21/2016','11/23/2016'),
('8','3242','11/24/2016','11/29/2016'),
('9','3242','12/12/2016','12/29/2016')
初始Table(表 1)
episode_id patient_num admit_date discharge_date
1 5743 2016-01-01 2016-01-05
2 5743 2016-04-26 2016-04-29
3 5743 2016-05-26 2016-05-28
4 5743 2016-09-21 2016-09-28
5 8859 2016-04-27 2016-05-05
6 3242 2016-04-28 2016-04-29
7 3242 2016-11-21 2016-11-23
8 3242 2016-11-24 2016-11-29
9 3242 2016-12-12 2016-12-29
预期结果
episode_id patient_num admit_date discharge_date
1 5743 2016-01-01 2016-01-05
3 5743 2016-05-26 2016-05-28
4 5743 2016-09-21 2016-09-28
5 8859 2016-04-27 2016-05-05
6 3242 2016-04-28 2016-04-29
9 3242 2016-12-12 2016-12-29
我的尝试:
SELECT *
FROM table1 AS a
WHERE EXISTS
(
SELECT *
FROM table1 AS b
WHERE a.episode_id != b.episode_id
AND a.patient_num= b.patient_num
AND a.admit_date BETWEEN b.discharge_date AND DATEADD(DAY, 90, b.discharge_date ))
我的脚本中的错误是,对于编号 3242
的患者,我得到了第 8 集和第 9 集,而我只想要第 9 集。我假设这个错误的原因是我正在比较每行单独而不是作为一个组,但我无法分组。此外,此脚本未显示没有重叠的实例,例如 episode_id 1、4、5、6。对此方法有何建议?
我在这里删除了游标解决方案,因为它的性能很低
不使用 Cursor 的解决方案是:
WITH ExcludedIds AS (
SELECT DISTINCT T2.episode_id
FROM table1 AS T
INNER JOIN table1 AS T2 ON T.episode_id != T2.episode_id
AND T.patient_num = T2.patient_num
AND T2.discharge_date BETWEEN DATEADD(DAY, -90, T.admit_date ) AND T.discharge_date)
SELECT T.episode_id, T.patient_num, T.admit_date, T.discharge_date
FROM table1 AS T
WHERE T.episode_id NOT IN (SELECT ExcludedIds.episode_id FROM ExcludedIds)
想理解这个解决方案有点困难。
我认为not exists
做你想做的事:
SELECT a.*
FROM table1 a
WHERE NOT EXISTS (SELECT 1
FROM table1 b
WHERE a.episode_id <> b.episode_id AND
a.patient_num = b.patient_num AND
b.admin_date < a.discharge_date AND
b.discharge_date >= DATEADD(DAY, -90, a.discharge_date)
);
我需要为每位患者找到所有 episode_ids。但是,当在前一集的 90 天内出现重叠情节时,我只想保留最近的一集。
例如下面的patient_num 3242
有3集:第二集与第一集在90天内重叠,第三集与第二集在90天内重叠,在这种情况下我只需要保留第3集。
CREATE TABLE table1 (episode_id nvarchar(max), patient_num nvarchar(max), admit_date date, discharge_date date)
INSERT INTO table1 (episode_id, patient_num , admit_date , discharge_date ) VALUES
('1','5743','1/1/2016','1/5/2016'),
('2','5743','4/26/2016','4/29/2016'),
('3','5743','5/26/2016','5/28/2016'),
('4','5743','9/21/2016','9/28/2016'),
('5','8859','4/27/2016','5/5/2016'),
('6','3242','4/28/2016','4/29/2016'),
('7','3242','11/21/2016','11/23/2016'),
('8','3242','11/24/2016','11/29/2016'),
('9','3242','12/12/2016','12/29/2016')
初始Table(表 1)
episode_id patient_num admit_date discharge_date
1 5743 2016-01-01 2016-01-05
2 5743 2016-04-26 2016-04-29
3 5743 2016-05-26 2016-05-28
4 5743 2016-09-21 2016-09-28
5 8859 2016-04-27 2016-05-05
6 3242 2016-04-28 2016-04-29
7 3242 2016-11-21 2016-11-23
8 3242 2016-11-24 2016-11-29
9 3242 2016-12-12 2016-12-29
预期结果
episode_id patient_num admit_date discharge_date
1 5743 2016-01-01 2016-01-05
3 5743 2016-05-26 2016-05-28
4 5743 2016-09-21 2016-09-28
5 8859 2016-04-27 2016-05-05
6 3242 2016-04-28 2016-04-29
9 3242 2016-12-12 2016-12-29
我的尝试:
SELECT *
FROM table1 AS a
WHERE EXISTS
(
SELECT *
FROM table1 AS b
WHERE a.episode_id != b.episode_id
AND a.patient_num= b.patient_num
AND a.admit_date BETWEEN b.discharge_date AND DATEADD(DAY, 90, b.discharge_date ))
我的脚本中的错误是,对于编号 3242
的患者,我得到了第 8 集和第 9 集,而我只想要第 9 集。我假设这个错误的原因是我正在比较每行单独而不是作为一个组,但我无法分组。此外,此脚本未显示没有重叠的实例,例如 episode_id 1、4、5、6。对此方法有何建议?
我在这里删除了游标解决方案,因为它的性能很低 不使用 Cursor 的解决方案是:
WITH ExcludedIds AS (
SELECT DISTINCT T2.episode_id
FROM table1 AS T
INNER JOIN table1 AS T2 ON T.episode_id != T2.episode_id
AND T.patient_num = T2.patient_num
AND T2.discharge_date BETWEEN DATEADD(DAY, -90, T.admit_date ) AND T.discharge_date)
SELECT T.episode_id, T.patient_num, T.admit_date, T.discharge_date
FROM table1 AS T
WHERE T.episode_id NOT IN (SELECT ExcludedIds.episode_id FROM ExcludedIds)
想理解这个解决方案有点困难。
我认为not exists
做你想做的事:
SELECT a.*
FROM table1 a
WHERE NOT EXISTS (SELECT 1
FROM table1 b
WHERE a.episode_id <> b.episode_id AND
a.patient_num = b.patient_num AND
b.admin_date < a.discharge_date AND
b.discharge_date >= DATEADD(DAY, -90, a.discharge_date)
);