删除 SparkR DataFrame 中的重复观察
Removing duplicate observations in SparkR DataFrame
我有一个 SparkR DataFrame
有重复的观察。我找不到删除重复项的简单方法,而且 PySpark dropDuplicates()
函数似乎在 SparkR 中不可用。例如,如果我有以下 DataFrame
,我如何根据 fullname
重复的事实删除第 2 行和第 4 行?
newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
surname = c("Smith", "Smith", "Taylor", "Taylor"),
value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))
|name | surname | value | fullname |
|--------|---------|-------|-----------|
|Thomas | Smith | 1.5 |ThomasSmith|
|Thomas | Smith | 1.5 |ThomasSmith|
|Bill | Taylor | 3.2 |BillTaylor |
|Bill | Taylor | 3.2 |BillTaylor |
sparkR 中也有一个函数 dropDuplicates
,您可以将其用作
dropDuplicates(newHire, "fullname")
请参考here
希望对您有所帮助!
我有一个 SparkR DataFrame
有重复的观察。我找不到删除重复项的简单方法,而且 PySpark dropDuplicates()
函数似乎在 SparkR 中不可用。例如,如果我有以下 DataFrame
,我如何根据 fullname
重复的事实删除第 2 行和第 4 行?
newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
surname = c("Smith", "Smith", "Taylor", "Taylor"),
value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))
|name | surname | value | fullname |
|--------|---------|-------|-----------|
|Thomas | Smith | 1.5 |ThomasSmith|
|Thomas | Smith | 1.5 |ThomasSmith|
|Bill | Taylor | 3.2 |BillTaylor |
|Bill | Taylor | 3.2 |BillTaylor |
sparkR 中也有一个函数 dropDuplicates
,您可以将其用作
dropDuplicates(newHire, "fullname")
请参考here
希望对您有所帮助!