pandas: 函数等同于 SQL 的 datediff()?

pandas: function equivalent to SQL's datediff()?

在 Python 的 pandas 中是否有等同于 SQL 的 datediff 函数? 这个问题的答案: Add column with number of days between dates in DataFrame pandas 解释了如何计算天数差异。例如:

>>> (pd.to_datetime('15-10-2010') - pd.to_datetime('15-07-2010')) / pd.offsets.Day(1)
92.0

但是,我有两个问题:

  1. 有没有办法计算月差?我可以将上面的结果近似除以 30,除以 31,但我想知道是否有一些内置函数可以自动执行此操作。
  2. pd.offsets 的语法是什么?我尝试除以 pd.offsets.Month(1) 但它不起作用。我在这里查看了文档(这太糟糕了,就像 Python 的所有文档一样!):http://pandas.pydata.org/pandas-docs/stable/timeseries.html#dateoffset-objects 但是 Day() 不在那里,所以我很困惑

更新:

def months_between(d1, d2):
    dd1 = min(d1, d2)
    dd2 = max(d1, d2)
    return (dd2.year - dd1.year)*12 + dd2.month - dd1.month

In [125]: months_between(pd.to_datetime('2015-01-02 12:13:14'), pd.to_datetime('2012-03-02 12:13:14'))
Out[125]: 34

旧答案:

In [40]: (pd.to_datetime('15-10-2010') - pd.to_datetime('15-07-2010')).days
Out[40]: 92

你也可以这样做几个月:

In [48]: pd.to_datetime('15-10-2010').month - pd.to_datetime('15-07-2010').month
Out[48]: 3

如果你环顾四周,似乎几个月都不可能摆脱 TimeDelta:

In [193]: date_1 = pd.to_datetime('2015-01-02 12:13:14')

In [194]: date_2 = pd.to_datetime('2012-03-02 12:13:14')

In [195]: date_1 - date_2
Out[195]: Timedelta('1036 days 00:00:00')

In [199]: td_1.
td_1.asm8            td_1.days            td_1.freq            td_1.microseconds    td_1.resolution      td_1.to_pytimedelta  td_1.value           
td_1.ceil            td_1.delta           td_1.is_populated    td_1.min             td_1.round           td_1.to_timedelta64  td_1.view            
td_1.components      td_1.floor           td_1.max             td_1.nanoseconds     td_1.seconds         td_1.total_seconds

In [199]: td_1.components
Out[199]: Components(days=1036, hours=0, minutes=0, seconds=0, milliseconds=0, microseconds=0, nanoseconds=0)

此外,Components看似不提供相同价值的不同面额,但

In [213]: td_1.components.days
Out[213]: 1036

In [214]: td_1.components.hours
Out[214]: 0

最终,您到目前为止所做的似乎是 "best" 解决方案:

In [214]: td_1.components.days/30
Out[214]: 34.53333333333333

In [215]: np.round(td_1.components.days/30)
Out[215]: 35.0

In [216]: np.floor(td_1.components.days/30)
Out[216]: 34.0

确实不是什么好消息,但无论如何都是一个解决方案。

关于将 Matlab 附带的文档与 pandas 的文档进行比较,你是对的。但是,如果您也比较两者的价格标签,也许可以回答一些问题..(?)