将年月字符串转换为带间隙的三个月箱 - 如何分配连续的升序值?

Convert year-month string to three month bins with gaps - how to assign contiguous ascending values?

我使用下面的代码将 "bin" 一个 year.month 字符串放入三个月的容器中。问题是我希望每个箱子都有一个数字,对应于箱子按时间顺序出现的位置(即第一个箱子 = 1,第二个箱子 = 2,等等)。现在,第一个月的 bin 被分配给数字 4,我不确定为什么。任何帮助将不胜感激!

> head(Master.feed.parts.gn$yr.mo, n=20)
 [1] "2007.10" "2007.10" "2007.10" "2007.11" "2007.11" "2007.11" "2007.11" "2007.12" "2008.01"
[10] "2008.01" "2008.01" "2008.01" "2008.01" "2008.02" "2008.03" "2008.03" "2008.03" "2008.04"
[19] "2008.04" "2008.04"
> 
> yearmonth_to_integer <- function(xx) {
+   yy_mm <- as.integer(unlist(strsplit(xx, '.', fixed=T)))
+   return( (yy_mm[1] - 2006) + (yy_mm[2] %/% 3) )
+ }
> 
> Cluster.GN <- sapply(Master.feed.parts.gn$yr.mo, yearmonth_to_integer)
> Cluster.GN
2007.10 2007.10 2007.10 2007.11 2007.11 2007.11 2007.11 2007.12 2008.01 2008.01 2008.01 
      4       4       4       4       4       4       4       5       2       2       2 
2008.01 2008.01 2008.02 2008.03 2008.03 2008.03 2008.04 2008.04 2008.04 2008.04 2008.05 
      2       2       2       3       3       3       3       3       3       3       3 
2008.05 2008.05 2008.06 2008.10 2008.11 2008.11 2008.12    <NA> 2009.05 2009.05 2009.05 
      3       3       4       5       5       5       6      NA       4       4       4 
2009.06 2009.07 2009.07 2009.07 2009.09 2009.10 2009.11 2010.01 2010.02 2010.02 2010.02 
      5       5       5       5       6       6       6       4       4       4       4 

更新:

我被要求提供样本输入(年份)和所需的输出(Cluster.GN)。我有一个年月字符串,每个月的观察次数不同,有些月份没有有任何意见。我想要做的是将连续三个月中的每个月都有数据装箱,每三个月 "bin" 分配一个数字,如下所示。

      yr.mo     Cluster.GN
1  2007.10              1
2  2007.10              1
3  2007.10              1
4  2007.10              1
5  2007.10              1
6  2007.11              1
7  2007.11              1
8  2007.11              1
9  2007.11              1
10 2007.12              1
11 2007.12              1
12 2007.12              1
13 2007.12              1
14 2008.10              2
15 2008.10              2
16 2008.10              2
17 2008.10              2
18 2008.12              2
19 2008.12              2
20 2008.12              2
21 2008.12              2
22 2008.12              2

1) 将字符串转换为动物园的 "yearqtr" class 然后再转换为整数:

s <- c("2007.10", "2007.10", "2007.10", "2007.11", "2007.11", "2007.11", 
"2007.11", "2007.12", "2008.01", "2008.01", "2008.01", "2008.01", 
"2008.01", "2008.02", "2008.03", "2008.03", "2008.03", "2008.04", 
"2008.04", "2008.04")

library(zoo)
yq <- as.yearqtr(s, "%Y.%m")
as.numeric(factor(yq))
## [1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3

最后一行也可以是:4*(yq - yq[1])+1

请注意,在问题中,2007.12 class被确定为与 2007.10 和 2007.11 不同的季度;但是,它们都在同一个季度,我们假设您无意这样做。

2)另一种可能性取决于你想要什么:

f <- factor(s)
nlev <- nlevels(f)
levels(f) <- gl(nlev, 3, nlev)
f
## [1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 3 3 3
## Levels: 1 2 3

如果缺少月份,那么这将给出与 (1) 不同的答案,因此这完全取决于您要查找的内容。