删除数据框中具有缺失值的重复值

Removing duplicated values with missing values in a dataframe

我有一个数据框,其中包含具有缺失值的重复行。我想删除重复的行,同时保留特定列的数据(例如下面示例中的年龄)。由于一列的值在模型中比其他列的权重更大,我想保留该列的数据。我尝试了 Removing duplicate Values in Dataframe in R 中提出的方法,但我的数据框很大,缺失值分布在多个列中。任何建议将不胜感激。

**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
ali, NA, bali, matric, 786
brad, NA, sofia, inter, 555
ali, 9999999, bali, matric, 444

预期输出应如下所示:

**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA

此致,

DF with duplicated Missing values

使用 dplyrmagrittr。但是,您需要为 age 参数设置一个阈值,这可能无法保证一组唯一的行 age

THRESHOLD <- 100
df %<>% na.omit() %>% filter(age<THRESHOLD)

或使用base如下

THRESHOLD <- 100
df <- df[complete.cases(df),]
df <- df[df$age < THRESHOLD,]