有条件地将字符串转换为特定数值
Conditionally convert strings to a specific numeric value
我确信对此有一个简单的答案,但我已经扫描了堆栈溢出,但未能找到解决方案。看起来 sapply 和 ifelse 函数的组合可能会完成这项工作(但我不确定)。
所以我有一个包含字符的数据框,除了一列是数值。
####Create dataframe which needs converting
df <- data.frame(Sample_1 = rep(letters[1:3], each = 3),
Sample_2 = rep("a", times = 9))
df$Number <- rep(seq(from=1,to=3,by=1))
我想将此数据框中的字符转换为特定数字。字符需要转换成什么取决于最后一列中的数字。所以标准是:
- 如果 Number = 1,则 a 应更改为 30,b 应更改为 20,c 应更改为 10
- 如果 Number = 2,则 a 应更改为 35,b 应更改为 25,c 应更改为 15
- 如果 Number = 3,则 a 应更改为 40,b 应更改为 30,c 应更改为 20
这是突出显示此转换的数据框
A <- c(30,20,10)
B <- c(35,25,15)
C <- c(40,30,20)
Conversion_df <- data.frame(A, B,C)
这是所需的输出。
Final <- data.frame(Sample_1 = c(30,20,10,35,25,15,40,30,20),
Sample_2 = c(30,20,10,30,20,10,30,20,10))
提前感谢您的帮助。
首先我们可以创建一个函数来使用 if 语句评估样本:
valuate_sample <- function(x,y) {
ifelse(y==1, ifelse(x=='a',30, ifelse(x=='b',20, 10)),
ifelse(y==2, ifelse(x=='a',35, ifelse(x=='b',25, 15)),
ifelse(y==3, ifelse(x=='a',40, ifelse(x=='b',30, 20)),0)))
}
在我们只需要使用您的数据框中的函数之后:
df <- df %>%
mutate(
Sample_1 = valuate_sample(Sample_1, Number),
Sample_2 = valuate_sample(Sample_2, Number)
)
结果:
我也有一个 dplyr
解决方案,但是使用 case_when
,这可能更透明一些。这个想法来自这个答案
library(dplyr)
df %>% mutate( # Sample_1
Sample_1_conv = case_when( Number == 1 & Sample_1 == "a" ~ 30
, Number == 1 & Sample_1 == "b" ~ 25
, Number == 1 & Sample_1 == "c" ~ 10
, Number == 2 & Sample_1 == "a" ~ 35
, Number == 2 & Sample_1 == "b" ~ 25
, Number == 2 & Sample_1 == "c" ~ 15
, Number == 3 & Sample_1 == "a" ~ 40
, Number == 3 & Sample_1 == "b" ~ 30
, Number == 3 & Sample_1 == "c" ~ 20)
# Sample_2
, Sample_2_conv = case_when( Number == 1 & Sample_2 == "a" ~ 30
, Number == 1 & Sample_2 == "b" ~ 25
, Number == 1 & Sample_2 == "c" ~ 10
, Number == 2 & Sample_2 == "a" ~ 35
, Number == 2 & Sample_2 == "b" ~ 25
, Number == 2 & Sample_2 == "c" ~ 15
, Number == 3 & Sample_2 == "a" ~ 40
, Number == 3 & Sample_2 == "b" ~ 30
, Number == 3 & Sample_2 == "c" ~ 20)
)
根据@skulden 在评论中描述的代码,您还可以在所有需要的列(即在数据框中编码为因子的列)上自动应用 'valuate_sample' 函数。
这是@skulden 在之前的回答中强调的功能。
valuate_sample <- function(x,y) {
ifelse(y==1, ifelse(x=='a',30, ifelse(x=='b',20, 10)),
ifelse(y==2, ifelse(x=='a',35, ifelse(x=='b',25, 15)),
ifelse(y==3, ifelse(x=='a',40, ifelse(x=='b',30, 20)),0)))
}
下面是如何将其应用于所有列。
for(column in names(df)) { if(is.factor(df[,column])){
df[,column] <- valuate_sample(df[,column], df[,'Number'])
}
我确信对此有一个简单的答案,但我已经扫描了堆栈溢出,但未能找到解决方案。看起来 sapply 和 ifelse 函数的组合可能会完成这项工作(但我不确定)。
所以我有一个包含字符的数据框,除了一列是数值。
####Create dataframe which needs converting
df <- data.frame(Sample_1 = rep(letters[1:3], each = 3),
Sample_2 = rep("a", times = 9))
df$Number <- rep(seq(from=1,to=3,by=1))
我想将此数据框中的字符转换为特定数字。字符需要转换成什么取决于最后一列中的数字。所以标准是:
- 如果 Number = 1,则 a 应更改为 30,b 应更改为 20,c 应更改为 10
- 如果 Number = 2,则 a 应更改为 35,b 应更改为 25,c 应更改为 15
- 如果 Number = 3,则 a 应更改为 40,b 应更改为 30,c 应更改为 20
这是突出显示此转换的数据框
A <- c(30,20,10)
B <- c(35,25,15)
C <- c(40,30,20)
Conversion_df <- data.frame(A, B,C)
这是所需的输出。
Final <- data.frame(Sample_1 = c(30,20,10,35,25,15,40,30,20),
Sample_2 = c(30,20,10,30,20,10,30,20,10))
提前感谢您的帮助。
首先我们可以创建一个函数来使用 if 语句评估样本:
valuate_sample <- function(x,y) {
ifelse(y==1, ifelse(x=='a',30, ifelse(x=='b',20, 10)),
ifelse(y==2, ifelse(x=='a',35, ifelse(x=='b',25, 15)),
ifelse(y==3, ifelse(x=='a',40, ifelse(x=='b',30, 20)),0)))
}
在我们只需要使用您的数据框中的函数之后:
df <- df %>%
mutate(
Sample_1 = valuate_sample(Sample_1, Number),
Sample_2 = valuate_sample(Sample_2, Number)
)
结果:
我也有一个 dplyr
解决方案,但是使用 case_when
,这可能更透明一些。这个想法来自这个答案
library(dplyr)
df %>% mutate( # Sample_1
Sample_1_conv = case_when( Number == 1 & Sample_1 == "a" ~ 30
, Number == 1 & Sample_1 == "b" ~ 25
, Number == 1 & Sample_1 == "c" ~ 10
, Number == 2 & Sample_1 == "a" ~ 35
, Number == 2 & Sample_1 == "b" ~ 25
, Number == 2 & Sample_1 == "c" ~ 15
, Number == 3 & Sample_1 == "a" ~ 40
, Number == 3 & Sample_1 == "b" ~ 30
, Number == 3 & Sample_1 == "c" ~ 20)
# Sample_2
, Sample_2_conv = case_when( Number == 1 & Sample_2 == "a" ~ 30
, Number == 1 & Sample_2 == "b" ~ 25
, Number == 1 & Sample_2 == "c" ~ 10
, Number == 2 & Sample_2 == "a" ~ 35
, Number == 2 & Sample_2 == "b" ~ 25
, Number == 2 & Sample_2 == "c" ~ 15
, Number == 3 & Sample_2 == "a" ~ 40
, Number == 3 & Sample_2 == "b" ~ 30
, Number == 3 & Sample_2 == "c" ~ 20)
)
根据@skulden 在评论中描述的代码,您还可以在所有需要的列(即在数据框中编码为因子的列)上自动应用 'valuate_sample' 函数。
这是@skulden 在之前的回答中强调的功能。
valuate_sample <- function(x,y) {
ifelse(y==1, ifelse(x=='a',30, ifelse(x=='b',20, 10)),
ifelse(y==2, ifelse(x=='a',35, ifelse(x=='b',25, 15)),
ifelse(y==3, ifelse(x=='a',40, ifelse(x=='b',30, 20)),0)))
}
下面是如何将其应用于所有列。
for(column in names(df)) { if(is.factor(df[,column])){
df[,column] <- valuate_sample(df[,column], df[,'Number'])
}