如何从列中提取月份

How to extract month from column

我想根据 Textmining with R 网络教科书创建一个图,但要使用我的数据。它实质上是搜索每年的热门术语并将它们绘制成图表(图 5.4:http://tidytextmining.com/dtm.html)。我的数据比他们开始使用的数据要干净一些,但我是 R 的新手。我的数据有一个 "Date" 列,格式为 2016-01-01(这是一个日期 class) .我只有 2016 年的数据,所以我想做同样的事情,但更细化(即按月或按天)

library(tidyr)

year_term_counts <- inaug_td %>%
extract(document, "year", "(\d+)", convert = TRUE) %>%
complete(year, term, fill = list(count = 0)) %>%
group_by(year) %>%
mutate(year_total = sum(count))

year_term_counts %>%
filter(term %in% c("god", "america", "foreign", "union", "constitution", 
"freedom")) %>%
ggplot(aes(year, count / year_total)) +
geom_point() +
geom_smooth() +
facet_wrap(~ term, scales = "free_y") +
scale_y_continuous(labels = scales::percent_format()) +
ylab("% frequency of word in inaugural address")

我的想法是,我会从我的文本中选择我的特定词,看看它们在几个月内如何变化。

谢谢!

如果您想查看更小的时间单位,基于您已有的日期列,我建议您查看来自 lubridate 的 floor_date()round_date() 函数。您链接到的我们书中的特定章节涉及获取文档术语矩阵然后对其进行整理等。您是否已经为您的数据采用了整洁的文本格式?如果是这样,那么您可以这样做:

date_counts <- tidy_text %>%
    mutate(date = floor_date(Date, unit = "7 days")) %>% # use whatever time unit you want here
    count(date, word) %>%
    group_by(date) %>%
    mutate(date_total = sum(n))

date_counts %>%
    filter(word %in% c("PUT YOUR LIST OF WORDS HERE")) %>%
    ggplot(aes(date, n / date_total)) +
    geom_point() +
    geom_smooth() +
    facet_wrap(~ word, scales = "free_y")