在没有循环的情况下替换两个值之间的 NA

Replace NA between two values without loop

我有以下数据框:

data <- structure(list(Date = structure(c(-17897, -17896, -17895, -17894, 
                  -17893, -17892, -17891, -17890, -17889, -17888, -17887, -17887, 
                  -17886, -17885, -17884, -17883, -17882, -17881, -17880, -17879, 
                  -17878, -17877, -17876, -17875, -17874, -17873, -17872, -17871, 
                  -17870, -17869, -17868, -17867, -17866, -17865, -17864), class = "Date"), 
                  duration = c(NA, NA, NA, 5, NA, NA, NA, 5, NA, NA, 1, 1, 
                  NA, NA, 3, NA, 3, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, 
                  NA, NA, 4, NA, NA, 4, NA, NA), name = c(NA, NA, NA, "Date_beg", 
                  NA, NA, NA, "Date_end", NA, NA, "Date_beg", "Date_end", NA, 
                  NA, "Date_beg", NA, "Date_end", NA, NA, NA, NA, NA, NA, NA, 
                  NA, NA, NA, NA, NA, "Date_beg", NA, NA, "Date_end", NA, NA
                  )), row.names = c(NA, -35L), class = c("tbl_df", "tbl", "data.frame"
                ))

看起来像:

   Date       duration name    
   <date>        <dbl> <chr>   
 1 1921-01-01       NA NA      
 2 1921-01-02       NA NA      
 3 1921-01-03       NA NA      
 4 1921-01-04        5 Date_beg
 5 1921-01-05       NA NA      
 6 1921-01-06       NA NA      
 7 1921-01-07       NA NA      
 8 1921-01-08        5 Date_end
 9 1921-01-09       NA NA      
10 1921-01-10       NA NA   
...   

我想用 “事件”一词替换 Date_begDate_end 行之间的 name 列中的值.

我试过这个:

data %<>% mutate(name = ifelse(((lag(name) == 'Date_beg')|(lag(name) == 'event')) &

但只有Date_beg之后的第一行发生变化。使用 for 循环很容易,但我想使用更像 R 的方法。

使用 data.table::nafill 可能是更好的方法,但是当您使用 tidyverse 函数时,我会通过使用 [=14= 创建一个额外的 event 列来实现] 然后将其拉到 name 列,其中 name 是 NA:

library(tidyr)
data  %>%
    mutate(
    events = ifelse(
        fill(data, name)$name == "Date_beg", 
         "event",
         NA), 
     name = coalesce(name, events)
    )  %>% 
    select(-events) 

您可以通过查看 "Date_beg" 多于 "Dat_end" 的指数来做到这一点:

data$name[lag(cumsum(data$name == "Date_beg" & !is.na(data$name))) - 
          cumsum(data$name == "Date_end" & !is.na(data$name)) >0] <- "event"

print(data, n=20)
# # A tibble: 35 x 3
# Date       duration name    
# <date>        <dbl> <chr>   
#   1 1921-01-01       NA NA      
# 2 1921-01-02       NA NA      
# 3 1921-01-03       NA NA      
# 4 1921-01-04        5 Date_beg
# 5 1921-01-05       NA event   
# 6 1921-01-06       NA event   
# 7 1921-01-07       NA event   
# 8 1921-01-08        5 Date_end
# 9 1921-01-09       NA NA      
# 10 1921-01-10       NA NA      
# 11 1921-01-11        1 Date_beg
# 12 1921-01-11        1 Date_end
# 13 1921-01-12       NA NA      
# 14 1921-01-13       NA NA      
# 15 1921-01-14        3 Date_beg
# 16 1921-01-15       NA event   
# 17 1921-01-16        3 Date_end
# 18 1921-01-17       NA NA      
# 19 1921-01-18       NA NA      
# 20 1921-01-19       NA NA      
# # ... with 15 more rows

需要将第一个索引滞后一个,这样您就不会覆盖每个 运行.

开头的“Date_beg”

使用 cumsum 函数的另一种 dplyr 方法。

如果 name 列中的行在 NA 中,它将向 cumsum 中添加 0,否则添加 1。因此 Date_beg 下的值将始终为奇数 (0 + 1),Date_end 下的值始终为偶数 (0 + 1 + 1)。然后用“事件”替换 ref 中的奇数值,而不是 name 列中的 NA。

library(dplyr)

data %>% 
  mutate(ref = cumsum(ifelse(is.na(name), 0, 1)), 
         name = ifelse(ref %% 2 == 1 & is.na(name), "event", name)) %>% 
  select(-ref)