如何绘制 Pandas 中日期的核密度图?
How to plot kernel density plot of dates in Pandas?
我有一个 pandas 数据框,其中每个观察值都有一个日期(作为 datetime[64] 格式的条目列)。这些日期分布在大约 5 年的时间段内。我想绘制所有观测日期的核密度图,年份标记在 x 轴上。
我已经弄清楚如何创建相对于某个参考日期的时间增量,然后创建每个观察值和参考日期之间 hours/days/years 数量的密度图:
df['relativeDate'].astype('timedelta64[D]').plot(kind='kde')
但这并不是我想要的:如果我转换为年增量,则 x 轴是正确的,但我失去了年内变化。但如果我采用更小的时间单位,例如小时或天,则 x 轴标签更难解释。
在 Pandas 中实现此功能的最简单方法是什么?
我想有一些更好的自动方法可以做到这一点,但如果没有,那么这应该是一个不错的解决方法。首先,让我们设置一些示例数据:
np.random.seed(479)
start_date = '2011-1-1'
df = pd.DataFrame({ 'date':np.random.choice(
pd.date_range(start_date, periods=365*5, freq='D'), 50) })
df['rel'] = df['date'] - pd.to_datetime(start_date)
df.rel = df.rel.astype('timedelta64[D]')
date rel
0 2014-06-06 1252
1 2011-10-26 298
2 2013-08-24 966
3 2014-09-25 1363
4 2011-12-23 356
如您所见,'rel' 只是从开始日期算起的天数。它本质上是一个整数,所以您真正需要做的就是根据开始日期对其进行标准化。
df['year_as_float'] = pd.to_datetime(start_date).year + df.rel / 365.
date rel year_as_float
0 2014-06-06 1252 2014.430137
1 2011-10-26 298 2011.816438
2 2013-08-24 966 2013.646575
3 2014-09-25 1363 2014.734247
4 2011-12-23 356 2011.975342
对于不是从 1 月 1 日开始的日期,您需要稍微调整一下。这也忽略了任何闰年,如果您只是制作 5 年以上的 KDE 图,这实际上不是一个实际问题,但是这可能很重要,具体取决于您还想做什么。
这是情节
df['year_as_float']d.plot(kind='kde')
受@JohnE 的回答启发,另一种将日期转换为数值的方法是使用 .toordinal()
.
import pandas as pd
import numpy as np
# simulate some artificial data
# ===============================
np.random.seed(0)
dates = pd.date_range('2010-01-01', periods=31, freq='D')
df = pd.DataFrame(np.random.choice(dates,100), columns=['dates'])
# use toordinal() to get datenum
df['ordinal'] = [x.toordinal() for x in df.dates]
print(df)
dates ordinal
0 2010-01-13 733785
1 2010-01-16 733788
2 2010-01-22 733794
3 2010-01-01 733773
4 2010-01-04 733776
5 2010-01-28 733800
6 2010-01-04 733776
7 2010-01-08 733780
8 2010-01-10 733782
9 2010-01-20 733792
.. ... ...
90 2010-01-19 733791
91 2010-01-28 733800
92 2010-01-01 733773
93 2010-01-15 733787
94 2010-01-04 733776
95 2010-01-22 733794
96 2010-01-13 733785
97 2010-01-26 733798
98 2010-01-11 733783
99 2010-01-21 733793
[100 rows x 2 columns]
# plot non-parametric kde on numeric datenum
ax = df['ordinal'].plot(kind='kde')
# rename the xticks with labels
x_ticks = ax.get_xticks()
ax.set_xticks(x_ticks[::2])
xlabels = [datetime.datetime.fromordinal(int(x)).strftime('%Y-%m-%d') for x in x_ticks[::2]]
ax.set_xticklabels(xlabels)
我有一个 pandas 数据框,其中每个观察值都有一个日期(作为 datetime[64] 格式的条目列)。这些日期分布在大约 5 年的时间段内。我想绘制所有观测日期的核密度图,年份标记在 x 轴上。
我已经弄清楚如何创建相对于某个参考日期的时间增量,然后创建每个观察值和参考日期之间 hours/days/years 数量的密度图:
df['relativeDate'].astype('timedelta64[D]').plot(kind='kde')
但这并不是我想要的:如果我转换为年增量,则 x 轴是正确的,但我失去了年内变化。但如果我采用更小的时间单位,例如小时或天,则 x 轴标签更难解释。
在 Pandas 中实现此功能的最简单方法是什么?
我想有一些更好的自动方法可以做到这一点,但如果没有,那么这应该是一个不错的解决方法。首先,让我们设置一些示例数据:
np.random.seed(479)
start_date = '2011-1-1'
df = pd.DataFrame({ 'date':np.random.choice(
pd.date_range(start_date, periods=365*5, freq='D'), 50) })
df['rel'] = df['date'] - pd.to_datetime(start_date)
df.rel = df.rel.astype('timedelta64[D]')
date rel
0 2014-06-06 1252
1 2011-10-26 298
2 2013-08-24 966
3 2014-09-25 1363
4 2011-12-23 356
如您所见,'rel' 只是从开始日期算起的天数。它本质上是一个整数,所以您真正需要做的就是根据开始日期对其进行标准化。
df['year_as_float'] = pd.to_datetime(start_date).year + df.rel / 365.
date rel year_as_float
0 2014-06-06 1252 2014.430137
1 2011-10-26 298 2011.816438
2 2013-08-24 966 2013.646575
3 2014-09-25 1363 2014.734247
4 2011-12-23 356 2011.975342
对于不是从 1 月 1 日开始的日期,您需要稍微调整一下。这也忽略了任何闰年,如果您只是制作 5 年以上的 KDE 图,这实际上不是一个实际问题,但是这可能很重要,具体取决于您还想做什么。
这是情节
df['year_as_float']d.plot(kind='kde')
受@JohnE 的回答启发,另一种将日期转换为数值的方法是使用 .toordinal()
.
import pandas as pd
import numpy as np
# simulate some artificial data
# ===============================
np.random.seed(0)
dates = pd.date_range('2010-01-01', periods=31, freq='D')
df = pd.DataFrame(np.random.choice(dates,100), columns=['dates'])
# use toordinal() to get datenum
df['ordinal'] = [x.toordinal() for x in df.dates]
print(df)
dates ordinal
0 2010-01-13 733785
1 2010-01-16 733788
2 2010-01-22 733794
3 2010-01-01 733773
4 2010-01-04 733776
5 2010-01-28 733800
6 2010-01-04 733776
7 2010-01-08 733780
8 2010-01-10 733782
9 2010-01-20 733792
.. ... ...
90 2010-01-19 733791
91 2010-01-28 733800
92 2010-01-01 733773
93 2010-01-15 733787
94 2010-01-04 733776
95 2010-01-22 733794
96 2010-01-13 733785
97 2010-01-26 733798
98 2010-01-11 733783
99 2010-01-21 733793
[100 rows x 2 columns]
# plot non-parametric kde on numeric datenum
ax = df['ordinal'].plot(kind='kde')
# rename the xticks with labels
x_ticks = ax.get_xticks()
ax.set_xticks(x_ticks[::2])
xlabels = [datetime.datetime.fromordinal(int(x)).strftime('%Y-%m-%d') for x in x_ticks[::2]]
ax.set_xticklabels(xlabels)