数据操作:Select 用户基于变量

Data manipulation: Select users based on variables

我目前正在从事一个机器学习项目。我有一个从论坛上删除的大型数据集 www.stormfront.com。数据集有 7 列:stormfront_self_content(论坛帖子)、stormfront_lang_id、stormfront_publication_date、stormfront_topic、stormfront_docid、stormfront_category、stormfront_user.

我想select一组在论坛注册一年以上的用户 已经写了超过 500 篇文章,但我不知道该怎么做。

如有任何帮助,我们将不胜感激。

假设您有一些 id 列代表每个用户,我们可以 group_by 每个 id select 组有超过 500 行和天数在 maxmin 之间的发布日期之间的时间大于 365。

library(dplyr)
library(lubridate)

df %>%
  mutate(stormfront_publication_date = ymd_hms(stormfront_publication_date)) %>%
  group_by(id) %>%
  filter(n() > 500 & difftime(max(stormfront_publication_date), 
                    min(stormfront_publication_date),units = 'days') > 365)