如何迭代 R 中一个因子的水平?
How can I iterate the levels of a factor in R?
我想创建一个函数,通过访问第一个字母来帮助我识别因子级别中可能存在的错误,因此我首先关注识别部分。
数据框
'''
alleles<-(c('A*24:02', 'A*11:01', 'blank', 'A*31:01'))
as.factor(alleles)
freq<-c(0.3782, 0.4209, 0.0362, 0.0761)
df<-data.frame(alleles, freq)
'''
我的尝试_
'''
for(i in df$alleles){
if (i != 'A'){
can<-c()
append(can, i)
df$alleles<-df$alleles[-c(can)]
}
}
'''
错误信息
-c(can) 中的错误:一元运算符的无效参数
观察结果
如果我执行 '''print(can)''' 输出为“NULL”,这意味着它无法使用“追加”。
为什么不直接使用正则表达式?
df[grepl("^A", df$alleles),]
您也可以试试:
#Data
alleles<-(c('A*24:02', 'A*11:01', 'blank', 'A*31:01'))
freq<-c(0.3782, 0.4209, 0.0362, 0.0761)
df<-data.frame(alleles, freq)
can<-c()
#Check
for(i in 1:length(df$alleles))
{
if (substr(df$alleles[i],1,1) != 'A'){
can <- c(can, as.character(df$alleles[i]))
}
}
#Apply
df<-df[-which(df$alleles %in% can),]
输出:
df
alleles freq
1 A*24:02 0.3782
2 A*11:01 0.4209
4 A*31:01 0.0761
我们可以使用grep
df[grep("^A", df$alleles),]
我想创建一个函数,通过访问第一个字母来帮助我识别因子级别中可能存在的错误,因此我首先关注识别部分。
数据框 '''
alleles<-(c('A*24:02', 'A*11:01', 'blank', 'A*31:01'))
as.factor(alleles)
freq<-c(0.3782, 0.4209, 0.0362, 0.0761)
df<-data.frame(alleles, freq)
'''
我的尝试_ '''
for(i in df$alleles){
if (i != 'A'){
can<-c()
append(can, i)
df$alleles<-df$alleles[-c(can)]
}
}
''' 错误信息 -c(can) 中的错误:一元运算符的无效参数
观察结果 如果我执行 '''print(can)''' 输出为“NULL”,这意味着它无法使用“追加”。
为什么不直接使用正则表达式?
df[grepl("^A", df$alleles),]
您也可以试试:
#Data
alleles<-(c('A*24:02', 'A*11:01', 'blank', 'A*31:01'))
freq<-c(0.3782, 0.4209, 0.0362, 0.0761)
df<-data.frame(alleles, freq)
can<-c()
#Check
for(i in 1:length(df$alleles))
{
if (substr(df$alleles[i],1,1) != 'A'){
can <- c(can, as.character(df$alleles[i]))
}
}
#Apply
df<-df[-which(df$alleles %in% can),]
输出:
df
alleles freq
1 A*24:02 0.3782
2 A*11:01 0.4209
4 A*31:01 0.0761
我们可以使用grep
df[grep("^A", df$alleles),]