如何使用 purrr 在多个条件下替换值?

How to replace values under severals conditions using purrr?

post 已于 2020 年 8 月 17 日进行编辑,使示例看起来更像我的实际数据。

日期总是排在第一位,有 1 位或 2 位数字。在法语中,月份总是全部或部分排在第二位。年份总是排在第三位,有 2 位或 4 位数字。


我正在学习使用 tidyverse 包进行编码。如果它们符合特定条件,我试图用另一个字符串替换变量中的每个元素。问题是我一次只能做一个条件。我想知道一次在几个条件下如何实现。

这是一个可重现的例子:

library(tidyverse)
library(magrittr)
        
tib <- tibble(
  ID = 1:6, 
  Date = c("1-JAN-20", "15-JUILL-20", "30 DEC 2020", 
           "1-JAN-20", "15-JUILL-20", "30 DEC 2020"), 
  Comm = c("Should be 2020-01-01", "Should be 2020-06-15", "Should be 2020-12-30", 
           "Should be 2020-01-01", "Should be 2020-06-15", "Should be 2020-12-30"))
head(tib)

# A tibble: 6 x 3
     ID Date        Comm                
  <int> <chr>       <chr>               
1     1 1-JAN-20    Should be 2020-01-01
2     2 15-JUILL-20 Should be 2020-06-15
3     3 30 DEC 2020 Should be 2020-12-30
4     4 1-JAN-20    Should be 2020-01-01
5     5 15-JUILL-20 Should be 2020-06-15
6     6 30 DEC 2020 Should be 2020-12-30

# Returns the unique values of the character variables execept the "Comm" one. So, it
# returns only one in that case, but my original data have severals ones.
            
tib %>% select(where(is.character), -Comm) %>% map(~ unique(.x))
    
$Date
[1] "1-JAN-20"   "15-JUILL-20" "30 DEC 2020"

我们到了!以下代码有效,但我想知道是否有更好的方法来实现它而不是 copy/pass 每次都使用相同的代码行并更改它。

tib <- tib %>% mutate(Date = case_when(Date == "1-JAN-20" ~ "2020-01-01", 
                                       Date == "15-JUILL-20" ~ "2020-06-15",
                                       Date == "30 DEC 2020" ~ "2020-12-01"))
head(tib)

# A tibble: 6 x 3
     ID Date       Comm                
  <int> <chr>      <chr>               
1     1 2020-01-01 Should be 2020-01-01
2     2 2020-06-15 Should be 2020-06-15
3     3 2020-12-01 Should be 2020-12-30
4     4 2020-01-01 Should be 2020-01-01
5     5 2020-06-15 Should be 2020-06-15
6     6 2020-12-01 Should be 2020-12-30

由于我必须对其他变量进行此操作,我如何构建一个函数来完成此操作?

另外,我想知道你是否知道一些好的documentations/tutorials学习Purrr包?

谢谢你,祝你有美好的一天!

也许你可以试试 dplyr::case_when:

library(magrittr)
library(purrr)

# A tibble that looks like my data.
tib <- tibble(
  ID = 1:6, 
  Date = c("01-JAN-20", "15-JUN-20", "30 DEC 2020", 
           "01-JAN-20", "15-JUN-20", "30 DEC 2020"), 
  Comm = c("Should be 2020-01-01", "Should be 2020-06-15", "Should be 2020-12-30", 
           "Should be 2020-01-01", "Should be 2020-06-15", "Should be 2020-12-30"))
head(tib)

tib %>% select(where(is.character), -Comm) %>% map(~ unique(.x))

tib <- tib %>% mutate(Date = dplyr::case_when(Date == "01-JAN-20" ~ "2020-01-01",
                                              Date == "15-JUN-20" ~ "2020-06-15",
                                              Date == "30 DEC 2020" ~ "2020-12-01"))

> tib
# A tibble: 6 x 3
     ID Date       Comm                
  <int> <chr>      <chr>               
1     1 2020-01-01 Should be 2020-01-01
2     2 2020-06-15 Should be 2020-06-15
3     3 2020-12-01 Should be 2020-12-30
4     4 2020-01-01 Should be 2020-01-01
5     5 2020-06-15 Should be 2020-06-15
6     6 2020-12-01 Should be 2020-12-30

在这里尝试做的最好的事情是使用“随时”包将日期列转换为日期 class。尽管您必须手动修复日期列,以便所有年份都有 4 位数字。如果年份总是在日期的最后一位,那将是一件容易的事情。

在处理 dates/times 时,您应该使用标准日期时间函数进行操作。不要使用 str_replace 一个一个地替换日期。假设您有 1000 个不同年份的日期,几乎不可能列出每个日期。在这种情况下,您可以使用 lubridate::dmy 将它们转换为日期对象,对于更复杂的情况,有 lubridate::parse_date_time 可以将不同格式的变量转换为日期。

tib %>% dplyr::mutate(new_date = lubridate::dmy(Date))

#     ID Date        Comm                 new_date  
#  <int> <chr>       <chr>                <date>    
#1     1 01-JAN-20   Should be 2020-01-01 2020-01-01
#2     2 15-JUN-20   Should be 2020-06-15 2020-06-15
#3     3 30 DEC 2020 Should be 2020-12-30 2020-12-30
#4     4 01-JAN-20   Should be 2020-01-01 2020-01-01
#5     5 15-JUN-20   Should be 2020-06-15 2020-06-15
#6     6 30 DEC 2020 Should be 2020-12-30 2020-12-30

如果您想要特定格式的日期,可以使用 new_date 上的 format 函数。