match() 与 %in% 运算符
match() versus %in% operator
根据我在 ?match()
中阅读的内容
"%in%" <- function(x, table) match(x, table, nomatch = 0) > 0
为什么我使用 match(x, dict[["word"]], 0L)
得到不同的结果
vapply(strsplit(df$text, " "),
function(x) sum(dict[["score"]][match(x, dict[["word"]], 0L)]), 1)
#[1] 2 -2 3 -2
与使用 dict[["word"]] %in% x
时的对比
vapply(strsplit(df$text, " "),
function(x) sum(dict[["score"]][dict[["word"]] %in% x]), 1)
#[1] 2 -2 1 -1
数据
library(dplyr)
df <- data_frame(text = c("I love pandas", "I hate monkeys",
"pandas pandas pandas", "monkeys monkeys"))
dict <- data_frame(word = c("love", "hate", "pandas", "monkeys"),
score = c(1,-1,1,-1))
更新
经过理查德的解释,我现在明白了我最初的误解。 %in%
运算符returns一个逻辑向量:
> sapply(strsplit(df$text, " "), function(x) dict[["word"]] %in% x)
[,1] [,2] [,3] [,4]
[1,] TRUE FALSE FALSE FALSE
[2,] FALSE TRUE FALSE FALSE
[3,] TRUE FALSE TRUE FALSE
[4,] FALSE TRUE FALSE TRUE
和match()
returns地点号码:
> sapply(strsplit(df$text, " "), function(x) match(x, dict[["word"]], 0L))
[[1]]
[1] 0 1 3
[[2]]
[1] 0 2 4
[[3]]
[1] 3 3 3
[[4]]
[1] 4 4
match()
returns 第一个匹配位置的整数向量,如果该位置不是第一个,它将大于 1。
%in%
returns 一个逻辑向量,其中匹配 (TRUE) 总是 1(当表示为整数时)。
因此,您计算的总和可能会有所不同。
根据我在 ?match()
"%in%" <- function(x, table) match(x, table, nomatch = 0) > 0
为什么我使用 match(x, dict[["word"]], 0L)
vapply(strsplit(df$text, " "),
function(x) sum(dict[["score"]][match(x, dict[["word"]], 0L)]), 1)
#[1] 2 -2 3 -2
与使用 dict[["word"]] %in% x
vapply(strsplit(df$text, " "),
function(x) sum(dict[["score"]][dict[["word"]] %in% x]), 1)
#[1] 2 -2 1 -1
数据
library(dplyr)
df <- data_frame(text = c("I love pandas", "I hate monkeys",
"pandas pandas pandas", "monkeys monkeys"))
dict <- data_frame(word = c("love", "hate", "pandas", "monkeys"),
score = c(1,-1,1,-1))
更新
经过理查德的解释,我现在明白了我最初的误解。 %in%
运算符returns一个逻辑向量:
> sapply(strsplit(df$text, " "), function(x) dict[["word"]] %in% x)
[,1] [,2] [,3] [,4]
[1,] TRUE FALSE FALSE FALSE
[2,] FALSE TRUE FALSE FALSE
[3,] TRUE FALSE TRUE FALSE
[4,] FALSE TRUE FALSE TRUE
和match()
returns地点号码:
> sapply(strsplit(df$text, " "), function(x) match(x, dict[["word"]], 0L))
[[1]]
[1] 0 1 3
[[2]]
[1] 0 2 4
[[3]]
[1] 3 3 3
[[4]]
[1] 4 4
match()
returns 第一个匹配位置的整数向量,如果该位置不是第一个,它将大于 1。
%in%
returns 一个逻辑向量,其中匹配 (TRUE) 总是 1(当表示为整数时)。
因此,您计算的总和可能会有所不同。