计算和收集日期之间的年份

Calculate and collect years between dates

我有一个包含每个国家/地区选举日期的数据集。 我想创建一个变量,列出获胜者根据两次选举之间的年份进行统治的所有年份。 我知道一些选举数据可能会丢失(例如玩具示例中的 2004 年)并且政府可以统治的最大年限是 5.

toy <- data.frame(
  election_year=c(1995,1999,2009,2014),
  election_country=rep("A",4))

这是我期望的结果:

toy_expected <- data.frame(
  election_year=c(1995,1999,2009,2014),
  election_country =rep("A",4),
  ruling_year=c("1995 - 1996 - 1997 - 1998",
                "1999 - 2000 - 2001 - 2002 - 2003",
                "2009 - 2010 - 2011 - 2012 - 2013",
                "2014 - 2015 - 2016 - 2017 - 2018"))

> toy_expected
  election_year election_city                      ruling_year
1          1995             A        1995 - 1996 - 1997 - 1998
2          1999             A 1999 - 2000 - 2001 - 2002 - 2003
3          2009             A 2009 - 2010 - 2011 - 2012 - 2013
4          2014             A 2014 - 2015 - 2016 - 2017 - 2018

ruling_years <- function(x,y){
  r = c(x+1,x+2,x+3,x+4)
  r = setdiff(r,y)
  r = c(x,r)
  r = paste(r, collapse = " - ")
  return(r)
}


toy %>% 
  group_by(election_city) %>% 
  mutate(e_years=list(election_year),
         r=mapply(ruling_years,election_year,e_years)) %>% 
  select(-e_years) 

这是我要采取的步骤:

  1. 创建一个辅助函数,根据开始和结束生成统治年份字符串
  2. 计算每一行的结束年份 - 最初将其设置为下一个选举年,然后检查以确保这是一个有效数字(不是 NA 或超过 5 年的结果)
  3. 映射开始年份和结束年份以生成列
library(dplyr)
library(purrr)

genYearString <- function(start, end){
  paste(seq(start, end), collapse = " - ")
}

toy %>% 
  mutate(
    end_year = dplyr::lead(election_year) - 1,
    end_year = if_else(
      is.na(end_year) | (end_year - election_year) > 4,
      election_year + 4, 
      end_year
    ),
    ruling_year = map2_chr(election_year, end_year, genYearString)
  ) %>% 
  select(-end_year)