用字典标准化重命名
Standardize Rename with a Dictionary
我正在寻求标准化一些代码,这些代码处理随时间推移具有不同列名的清理数据。这个想法是创建一个字典以及一个函数,该函数搜索给定数据集是否在字典中有名称,然后用正确的名称替换名称(位于字典中)。
在下面的示例中,'Sepal.Length' 将转换为 'sepal_length'。
column_dict <- tibble(
from = c('Sepal.Length', 'length_of_sepal', 'sepal.lgth'),
to = c('sepal_length', 'sepal_length', 'sepal_length')
)
iris %>%
as_tibble %>%
map2(., column_dict, rename)
您可以将命名向量作为字典传递给 dplyr::rename()
。在这里,您将希望利用 any_of()
来构建灵活性,而不需要所有词典术语都存在。
library(tidyverse)
old_names <- c('Sepal.Length', 'length_of_sepal', 'sepal.lgth')
new_names <- c('sepal_length', 'sepal_length', 'sepal_length')
# create named vector as dictionary
naming_key <- setNames(object = old_names, nm = new_names)
# rename according to naming key with any_of() in case there are missing columns in data
iris %>%
tibble() %>%
rename(any_of(naming_key))
#> # A tibble: 150 x 5
#> sepal_length Sepal.Width Petal.Length Petal.Width Species
#> <dbl> <dbl> <dbl> <dbl> <fct>
#> 1 5.1 3.5 1.4 0.2 setosa
#> 2 4.9 3 1.4 0.2 setosa
#> 3 4.7 3.2 1.3 0.2 setosa
#> 4 4.6 3.1 1.5 0.2 setosa
#> 5 5 3.6 1.4 0.2 setosa
#> 6 5.4 3.9 1.7 0.4 setosa
#> 7 4.6 3.4 1.4 0.3 setosa
#> 8 5 3.4 1.5 0.2 setosa
#> 9 4.4 2.9 1.4 0.2 setosa
#> 10 4.9 3.1 1.5 0.1 setosa
#> # ... with 140 more rows
由 reprex package (v2.0.1)
于 2022-02-18 创建
我正在寻求标准化一些代码,这些代码处理随时间推移具有不同列名的清理数据。这个想法是创建一个字典以及一个函数,该函数搜索给定数据集是否在字典中有名称,然后用正确的名称替换名称(位于字典中)。
在下面的示例中,'Sepal.Length' 将转换为 'sepal_length'。
column_dict <- tibble(
from = c('Sepal.Length', 'length_of_sepal', 'sepal.lgth'),
to = c('sepal_length', 'sepal_length', 'sepal_length')
)
iris %>%
as_tibble %>%
map2(., column_dict, rename)
您可以将命名向量作为字典传递给 dplyr::rename()
。在这里,您将希望利用 any_of()
来构建灵活性,而不需要所有词典术语都存在。
library(tidyverse)
old_names <- c('Sepal.Length', 'length_of_sepal', 'sepal.lgth')
new_names <- c('sepal_length', 'sepal_length', 'sepal_length')
# create named vector as dictionary
naming_key <- setNames(object = old_names, nm = new_names)
# rename according to naming key with any_of() in case there are missing columns in data
iris %>%
tibble() %>%
rename(any_of(naming_key))
#> # A tibble: 150 x 5
#> sepal_length Sepal.Width Petal.Length Petal.Width Species
#> <dbl> <dbl> <dbl> <dbl> <fct>
#> 1 5.1 3.5 1.4 0.2 setosa
#> 2 4.9 3 1.4 0.2 setosa
#> 3 4.7 3.2 1.3 0.2 setosa
#> 4 4.6 3.1 1.5 0.2 setosa
#> 5 5 3.6 1.4 0.2 setosa
#> 6 5.4 3.9 1.7 0.4 setosa
#> 7 4.6 3.4 1.4 0.3 setosa
#> 8 5 3.4 1.5 0.2 setosa
#> 9 4.4 2.9 1.4 0.2 setosa
#> 10 4.9 3.1 1.5 0.1 setosa
#> # ... with 140 more rows
由 reprex package (v2.0.1)
于 2022-02-18 创建