如何正确聚合某个产品主题数据集的社交媒体 post 与指定主题的销售数据集?

How to properly aggregate the social media post of a certain product theme dataset with the sales dataset for the specified theme?

我有一个 社交媒体 post 数据集: df1 包含列 ['Date'、'total_post'、'Theme_ID'、'Theme Name'、'year'、'month'] 和 销售数据集: df2 包含列 ['Date'、'product_id' 'sales_dollars_value'、'sales_units_value'、'sales_lbs_value'、'Theme_ID'、'Theme Name'、'Vendor' , 'year', 'month']。 现在,由于我的 product/theme 的销售将取决于社交媒体上的 post,因为它的广告是如何合并这两个数据集。 我可以直接在日期和 Theme_ID/Theme 名称上合并它,但我的问题是我的社交媒体 post 的影响不会在一段时间后反映在我的销售价值中。那么如何将其作为滞后功能包括在内呢?

您可以计算互相关并确定要考虑的最佳滞后。

总体思路是这样的:https://en.wikipedia.org/wiki/Cross-correlation

这可能是 python 中的一个实现:Cross-correlation (time-lag-correlation) with pandas?