在 Prophet 中处理不同国家的同等假期

Question

我正在创建包含时间变量的数据集，更具体地说，是假期，在使用 pandas 进行一些测试后，我现在使用 FBProphet.

由于我正在考虑一个地区（伊比利亚半岛），它将涉及两个国家的假期：葡萄牙和西班牙。这是当前的先知行为：

>>> m.add_country_holidays('PT')
>>> m.add_country_holidays('ES')
WARNING:fbprophet:Changing country holidays from PT to ES

因为我的目标是简单地知道是否是假期：

• 即使相同的假期可能在每个国家/地区的不同日期结束，但对于我所做的工作，知道假期之间的区别并不那么重要。

• 如果庆祝活动在同一天举行，例如“Ano Novo”和“Año Nuevo”，我只关心那一天是假期。

尽管了解我们在哪些国家（和地区）放假会有所帮助，但由于人口不同，这是影响我预测的一个因素，仅知道这是一个假期是我的预测已经有了很好的改进。

这就是我获取每个国家/地区假期的方式：

from fbprophet.make_holidays import make_holidays_df

year_list = [2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020]
PTBusinessCalendar = make_holidays_df(year_list=year_list, country='PT')
ESBusinessCalendar = make_holidays_df(year_list=year_list, country='ES')

为了获得 Iberian Holidays 日历，我可以 concat 他们，像这样：

iberian = [PTBusinessCalendar, ESBusinessCalendar]
iberian_2 = pd.concat(iberian).sort_values('ds').reset_index(drop=True)

结果如下：

从DataFrame可以看出，例如，索引0和1都有相同的日期（ds），代表相同的假期。

我应该怎么做才能连接具有相同 ds 的行并在第一行中写上 holiday 名称，用逗号分隔？

Answer 1

以下解决了我的问题：

def join(h):
    return ', '.join(h.holiday)
IberianBusinessCalendar = iberian_2.groupby("ds").apply(join).to_frame(name="holiday")

并输出以下内容：

在 Prophet 中处理不同国家的同等假期

Handle equivalent holidays for different countries in Prophet

python

datetime

dataframe

pandas

facebook-prophet