删除数据框中具有缺失值的重复值

Question

我有一个数据框，其中包含具有缺失值的重复行。我想删除重复的行，同时保留特定列的数据（例如下面示例中的年龄）。由于一列的值在模型中比其他列的权重更大，我想保留该列的数据。我尝试了 Removing duplicate Values in Dataframe in R 中提出的方法，但我的数据框很大，缺失值分布在多个列中。任何建议将不胜感激。

**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA
ali, NA, bali, matric, 786
brad, NA, sofia, inter, 555
ali, 9999999, bali, matric, 444

预期输出应如下所示：

**Name, age, city, edu, phone**
ali, 23, bali, matric, NA
brad, 24, sofia, inter, NA

此致，

DF with duplicated Missing values

Answer 1

使用 dplyr、magrittr。但是，您需要为 age 参数设置一个阈值，这可能无法保证一组唯一的行 age。

THRESHOLD <- 100
df %<>% na.omit() %>% filter(age<THRESHOLD)

或使用base如下

THRESHOLD <- 100
df <- df[complete.cases(df),]
df <- df[df$age < THRESHOLD,]

删除数据框中具有缺失值的重复值

Removing duplicated values with missing values in a dataframe

r

dataframe

data-science