用字典标准化重命名

Standardize Rename with a Dictionary

我正在寻求标准化一些代码,这些代码处理随时间推移具有不同列名的清理数据。这个想法是创建一个字典以及一个函数,该函数搜索给定数据集是否在字典中有名称,然后用正确的名称替换名称(位于字典中)。

在下面的示例中,'Sepal.Length' 将转换为 'sepal_length'。

column_dict <- tibble(
from = c('Sepal.Length', 'length_of_sepal', 'sepal.lgth'),
to = c('sepal_length', 'sepal_length', 'sepal_length')
)

iris %>%
  as_tibble %>%
  map2(., column_dict, rename)

您可以将命名向量作为字典传递给 dplyr::rename()。在这里,您将希望利用 any_of() 来构建灵活性,而不需要所有词典术语都存在。

library(tidyverse)

old_names <- c('Sepal.Length', 'length_of_sepal', 'sepal.lgth')
new_names <- c('sepal_length', 'sepal_length', 'sepal_length')

# create named vector as dictionary
naming_key <- setNames(object = old_names, nm = new_names)

# rename according to naming key with any_of() in case there are missing columns in data
iris %>%
  tibble() %>% 
  rename(any_of(naming_key))
#> # A tibble: 150 x 5
#>    sepal_length Sepal.Width Petal.Length Petal.Width Species
#>           <dbl>       <dbl>        <dbl>       <dbl> <fct>  
#>  1          5.1         3.5          1.4         0.2 setosa 
#>  2          4.9         3            1.4         0.2 setosa 
#>  3          4.7         3.2          1.3         0.2 setosa 
#>  4          4.6         3.1          1.5         0.2 setosa 
#>  5          5           3.6          1.4         0.2 setosa 
#>  6          5.4         3.9          1.7         0.4 setosa 
#>  7          4.6         3.4          1.4         0.3 setosa 
#>  8          5           3.4          1.5         0.2 setosa 
#>  9          4.4         2.9          1.4         0.2 setosa 
#> 10          4.9         3.1          1.5         0.1 setosa 
#> # ... with 140 more rows

reprex package (v2.0.1)

于 2022-02-18 创建