日期范围匹配函数 pandas
Date Range Matching Function pandas
我有一个名为 df1
的数据框,如下所示:
Loc Start End
CA 2013-11-08 2014-04-14
CO 2014-04-14 2014-04-16
CA 2014-04-16 2014-04-18
CO 2014-04-18 2014-04-23
我还有另一个名为 df2
的数据框,如下所示:
Date Loc Flag
2014-04-14 CO 0
2014-04-14 CO 0
2014-04-14 CO 0
2014-04-15 CO 0
2014-04-15 CO 0
2014-04-16 CO 0
2014-04-16 CO 0
2014-04-16 VA 0
2014-04-16 CA 0
我想构建一个函数,以便对于 df1
中的每个 Start
和 End
时间段,该函数检查 df2
中的行是否属于该时间段日期范围匹配位置,即匹配 loc
。在它们不匹配的地方,我希望 Flag
标记为 1。这是我尝试过的代码:
for i in range(len(df1)):
for j in range(len(df2)):
if df2['Date'][j] <= df1['End Date'][i] and \
df2['Date'][j] >= df1['Start Date'][i]:
if df2['Loc'][j] != df1['Loc'][i]:
df2['flag'][j] = 1
我的代码将 1 放在位置实际匹配的位置。我认为这是因为 Start
和 End
日期重叠。关于如何纠正这个问题的任何提示?谢谢
更简单的解决方案是使用 merge_asof。这类似于左连接,除了我们匹配最近的键而不是相等的键。这里有更多:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge_asof.html
df1['interval'] = pd.to_datetime(df1['start_date'])
df2['interval'] = pd.to_datetime(df2['Date'])
df1.sort_values(by=['interval'])
df2.sort_values(by=['interval'])
df3 = pd.merge_asof(df2, df1, on='interval', by='Loc')
我有一个名为 df1
的数据框,如下所示:
Loc Start End
CA 2013-11-08 2014-04-14
CO 2014-04-14 2014-04-16
CA 2014-04-16 2014-04-18
CO 2014-04-18 2014-04-23
我还有另一个名为 df2
的数据框,如下所示:
Date Loc Flag
2014-04-14 CO 0
2014-04-14 CO 0
2014-04-14 CO 0
2014-04-15 CO 0
2014-04-15 CO 0
2014-04-16 CO 0
2014-04-16 CO 0
2014-04-16 VA 0
2014-04-16 CA 0
我想构建一个函数,以便对于 df1
中的每个 Start
和 End
时间段,该函数检查 df2
中的行是否属于该时间段日期范围匹配位置,即匹配 loc
。在它们不匹配的地方,我希望 Flag
标记为 1。这是我尝试过的代码:
for i in range(len(df1)):
for j in range(len(df2)):
if df2['Date'][j] <= df1['End Date'][i] and \
df2['Date'][j] >= df1['Start Date'][i]:
if df2['Loc'][j] != df1['Loc'][i]:
df2['flag'][j] = 1
我的代码将 1 放在位置实际匹配的位置。我认为这是因为 Start
和 End
日期重叠。关于如何纠正这个问题的任何提示?谢谢
更简单的解决方案是使用 merge_asof。这类似于左连接,除了我们匹配最近的键而不是相等的键。这里有更多:https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.merge_asof.html
df1['interval'] = pd.to_datetime(df1['start_date'])
df2['interval'] = pd.to_datetime(df2['Date'])
df1.sort_values(by=['interval'])
df2.sort_values(by=['interval'])
df3 = pd.merge_asof(df2, df1, on='interval', by='Loc')