如何从时间序列数据中提取有用的特征(例如,用户在论坛中的日常活动)
How to extract useful features from time-series data (e.g., users' daily activities in a forum)
我有关于 1 周内用户在论坛中的访问和发帖的数据,该数据包含 activity 的时间戳。根据这个论坛数据,我试图预测用户的另一种行为(假设 X
行为)。回归模型的初步结果表明,用户的论坛 activity 似乎与他们的 X
行为有关。除了这些累积特征:avg_visits_per_day,total_posts_whole_week,我还有每天的特征(0<a<8
): {a}_visits 和 {a}_posts。
因此,我总共有 16 个特征,用这 16 个特征构建的回归模型给出了可喜的结果。因此,如果我可以生成更多功能,那将更有意义。但是,我不知道是否有针对此类时间序列数据的有用的特征提取策略。我正在使用 sklearn
但没有看到用于此目的的方法。有什么想法或建议吗?
有很多选项,很难说出哪些选项对预测未知事物更有用 "x behaviour"。但是,您可以:
手动创建代表原始数据中清楚可用的信息的特征,但根本不存在于您当前的特征集中。例如,如果您不仅记录了日期,还记录了 activity 的时间 - 您可以为每天的 first/last/average 访问时间构建额外的特征(可能转换为分类 morning/day/evening/night),访问之间的平均时间等等。可能星期几信息也很有用。
从现有集合手动创建相关特征:例如,visits/posts 每天的比率、自上次以来的天数 post、最长无访问时间等
如果可用,请使用其他信息:用户的浏览器,OS,屏幕分辨率,post 长度,his/her post 中存在的关键字,它所属的子论坛,新的 post 或后续的,...... - 再一次,很难事先判断什么是相关的。
一样按包自动提取特征
我有关于 1 周内用户在论坛中的访问和发帖的数据,该数据包含 activity 的时间戳。根据这个论坛数据,我试图预测用户的另一种行为(假设 X
行为)。回归模型的初步结果表明,用户的论坛 activity 似乎与他们的 X
行为有关。除了这些累积特征:avg_visits_per_day,total_posts_whole_week,我还有每天的特征(0<a<8
): {a}_visits 和 {a}_posts。
因此,我总共有 16 个特征,用这 16 个特征构建的回归模型给出了可喜的结果。因此,如果我可以生成更多功能,那将更有意义。但是,我不知道是否有针对此类时间序列数据的有用的特征提取策略。我正在使用 sklearn
但没有看到用于此目的的方法。有什么想法或建议吗?
有很多选项,很难说出哪些选项对预测未知事物更有用 "x behaviour"。但是,您可以:
手动创建代表原始数据中清楚可用的信息的特征,但根本不存在于您当前的特征集中。例如,如果您不仅记录了日期,还记录了 activity 的时间 - 您可以为每天的 first/last/average 访问时间构建额外的特征(可能转换为分类 morning/day/evening/night),访问之间的平均时间等等。可能星期几信息也很有用。
从现有集合手动创建相关特征:例如,visits/posts 每天的比率、自上次以来的天数 post、最长无访问时间等
如果可用,请使用其他信息:用户的浏览器,OS,屏幕分辨率,post 长度,his/her post 中存在的关键字,它所属的子论坛,新的 post 或后续的,...... - 再一次,很难事先判断什么是相关的。
- 一样按包自动提取特征