在 Postgresql 的时间序列数据中添加缺失的每月日期
Add Missing monthly dates in a timeseries data in Postgresql
我在 table 中有月度时间序列数据,其中日期是一个月的最后一天。数据中缺少某些日期。我想插入这些日期并为其他属性设置零值。
Table如下:
id report_date price
1 2015-01-31 40
1 2015-02-28 56
1 2015-04-30 34
2 2014-05-31 45
2 2014-08-31 47
我想将这个 table 转换为
id report_date price
1 2015-01-31 40
1 2015-02-28 56
1 2015-03-31 0
1 2015-04-30 34
2 2014-05-31 45
2 2014-06-30 0
2 2014-07-31 0
2 2014-08-31 47
有什么方法可以在 Postgresql 中做到这一点?
目前我们正在 Python 进行此操作。由于我们的数据与日俱增,仅处理一项任务 I/O 效率不高。
谢谢
您可以使用 generate_series()
生成日期,然后 left join
引入值:
with m as (
select id, min(report_date) as minrd, max(report_date) as maxrd
from t
group by id
)
select m.id, m.report_date, coalesce(t.price, 0) as price
from (select m.*, generate_series(minrd, maxrd, interval '1' month) as report_date
from m
) m left join
t
on m.report_date = t.report_date;
编辑:
事实证明,上面的方法并不完全有效,因为在月末添加月份并不能保留该月的最后一天。
这很容易解决:
with t as (
select 1 as id, date '2012-01-31' as report_date, 10 as price union all
select 1 as id, date '2012-04-30', 20
), m as (
select id, min(report_date) - interval '1 day' as minrd, max(report_date) - interval '1 day' as maxrd
from t
group by id
)
select m.id, m.report_date, coalesce(t.price, 0) as price
from (select m.*, generate_series(minrd, maxrd, interval '1' month) + interval '1 day' as report_date
from m
) m left join
t
on m.report_date = t.report_date;
第一个 CTE 只是为了生成示例数据。
这比 Gordon 的查询略有改进,后者在某些情况下无法获取月份的最后日期。
本质上,您为每个 ID(使用 generate_series
)和 left join
生成 min
和 max
日期之间的所有月末日期 [=26] =] 以 0 价格显示缺失的日期。
with minmax as (
select id, min(report_date) as mindt, max(report_date) as maxdt
from t
group by id
)
select m.id, m.report_date, coalesce(t.price, 0) as price
from (select *,
generate_series(date_trunc('MONTH',mindt+interval '1' day),
date_trunc('MONTH',maxdt+interval '1' day),
interval '1' month) - interval '1 day' as report_date
from minmax
) m
left join t on m.report_date = t.report_date
我在 table 中有月度时间序列数据,其中日期是一个月的最后一天。数据中缺少某些日期。我想插入这些日期并为其他属性设置零值。 Table如下:
id report_date price
1 2015-01-31 40
1 2015-02-28 56
1 2015-04-30 34
2 2014-05-31 45
2 2014-08-31 47
我想将这个 table 转换为
id report_date price
1 2015-01-31 40
1 2015-02-28 56
1 2015-03-31 0
1 2015-04-30 34
2 2014-05-31 45
2 2014-06-30 0
2 2014-07-31 0
2 2014-08-31 47
有什么方法可以在 Postgresql 中做到这一点? 目前我们正在 Python 进行此操作。由于我们的数据与日俱增,仅处理一项任务 I/O 效率不高。
谢谢
您可以使用 generate_series()
生成日期,然后 left join
引入值:
with m as (
select id, min(report_date) as minrd, max(report_date) as maxrd
from t
group by id
)
select m.id, m.report_date, coalesce(t.price, 0) as price
from (select m.*, generate_series(minrd, maxrd, interval '1' month) as report_date
from m
) m left join
t
on m.report_date = t.report_date;
编辑:
事实证明,上面的方法并不完全有效,因为在月末添加月份并不能保留该月的最后一天。
这很容易解决:
with t as (
select 1 as id, date '2012-01-31' as report_date, 10 as price union all
select 1 as id, date '2012-04-30', 20
), m as (
select id, min(report_date) - interval '1 day' as minrd, max(report_date) - interval '1 day' as maxrd
from t
group by id
)
select m.id, m.report_date, coalesce(t.price, 0) as price
from (select m.*, generate_series(minrd, maxrd, interval '1' month) + interval '1 day' as report_date
from m
) m left join
t
on m.report_date = t.report_date;
第一个 CTE 只是为了生成示例数据。
这比 Gordon 的查询略有改进,后者在某些情况下无法获取月份的最后日期。
本质上,您为每个 ID(使用 generate_series
)和 left join
生成 min
和 max
日期之间的所有月末日期 [=26] =] 以 0 价格显示缺失的日期。
with minmax as (
select id, min(report_date) as mindt, max(report_date) as maxdt
from t
group by id
)
select m.id, m.report_date, coalesce(t.price, 0) as price
from (select *,
generate_series(date_trunc('MONTH',mindt+interval '1' day),
date_trunc('MONTH',maxdt+interval '1' day),
interval '1' month) - interval '1 day' as report_date
from minmax
) m
left join t on m.report_date = t.report_date