删除具有重复 ID 的行

Question

我想删除 ID 重复的行

数据

id    V1    V2   
1     a      1
1     b      2
2     a      2
2     c      3
3     a      4

问题是有些人做了几次测试，在V2上产生了多个分数，我想删除重复的id并随机保留V2中的一个分数。

输出

id    V1    V2   
1     a      1
2     a      2
3     a      4

我试过这个：

neu <- unique(neu$userid)

但是没用

Answer 1

正在根据您的示例创建数据框：

df <- read.table(text = 
"id    V1    V2   
1     a      1
1     b      2
2     a      2
2     c      3
3     a      4", h = T)

由于您想随机删除行，请先对数据框的行进行随机排序：

df <- df[sample(nrow(df)),]

然后按出现顺序删除重复项：

df <- df[!duplicated(df$id),]

现在对您的数据框进行排序：

df <- df[with(df, order(id)),]

记得用您的数据框名称更改df。

Answer 2

使用dplyr：

library(dplyr)
set.seed(1)
df %>% sample_frac(., 1) %>% arrange(id) %>% distinct(id)

输出：

数据：

df <- structure(list(id = c(1L, 1L, 2L, 2L, 3L), V1 = structure(c(1L, 
2L, 1L, 3L, 1L), .Label = c("a", "b", "c"), class = "factor"), 
    V2 = c(1L, 2L, 2L, 3L, 4L)), .Names = c("id", "V1", "V2"), class = "data.frame", row.names = c(NA, 
-5L))

删除具有重复 ID 的行

delete the rows with duplicated ids

duplicate-data

r

delete-row