删除数据框中具有缺失值的重复值
Removing duplicated values with missing values in a dataframe
我有一个数据框,其中包含具有缺失值的重复行。我想删除重复的行,同时保留特定列的数据(例如下面示例中的年龄)。由于一列的值在模型中比其他列的权重更大,我想保留该列的数据。我尝试了 Removing duplicate Values in Dataframe in R 中提出的方法,但我的数据框很大,缺失值分布在多个列中。任何建议将不胜感激。
**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
ali, NA, bali, matric, 786
brad, NA, sofia, inter, 555
ali, 9999999, bali, matric, 444
预期输出应如下所示:
**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
此致,
DF with duplicated Missing values
使用 dplyr
、magrittr
。但是,您需要为 age 参数设置一个阈值,这可能无法保证一组唯一的行 age
。
THRESHOLD <- 100
df %<>% na.omit() %>% filter(age<THRESHOLD)
或使用base
如下
THRESHOLD <- 100
df <- df[complete.cases(df),]
df <- df[df$age < THRESHOLD,]
我有一个数据框,其中包含具有缺失值的重复行。我想删除重复的行,同时保留特定列的数据(例如下面示例中的年龄)。由于一列的值在模型中比其他列的权重更大,我想保留该列的数据。我尝试了 Removing duplicate Values in Dataframe in R 中提出的方法,但我的数据框很大,缺失值分布在多个列中。任何建议将不胜感激。
**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
ali, NA, bali, matric, 786
brad, NA, sofia, inter, 555
ali, 9999999, bali, matric, 444
预期输出应如下所示:
**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
此致,
DF with duplicated Missing values
使用 dplyr
、magrittr
。但是,您需要为 age 参数设置一个阈值,这可能无法保证一组唯一的行 age
。
THRESHOLD <- 100
df %<>% na.omit() %>% filter(age<THRESHOLD)
或使用base
如下
THRESHOLD <- 100
df <- df[complete.cases(df),]
df <- df[df$age < THRESHOLD,]