使用 melt 返回匹配值
returning matched value using melt
输入
listofstring <- c("Mac","Windows","Linux","Android")
test <- data.frame(query = c("I love Mac","I love Ubuntu","I love Android","I love both Android and Linux"), numerical_val = c(20,30,40,50))
我目前正在使用以下方法,它给出了我想要的输出:
library(stringr)
melt(setNames(lapply(str_extract_all(test$query,
paste(listofstring,collapse="|")), function(x)
if(length(x)==0) NA else x), test$query))[2:1]
# ind values
#1 I love Mac Mac
#2 I love Ubuntu <NA>
#3 I love Android Android
#4 I love both Android and Linux Android
#5 I love both Android and Linux Linux
所以,这是我想要的输出,我也得到了它。
现在我还想在输出中包含 numerical_val
。所以,输出会像
# ind values numerical_val
#1 I love Mac Mac 20
#2 I love Ubuntu <NA> 30
#3 I love Android Android 40
#4 I love both Android and Linux Android 50
#5 I love both Android and Linux Linux 50
谁能帮我修改一下我现在的方法。或者可以指导我更好的方法吗?
请注意,数据集非常庞大,目前的方法非常流畅。
假设生成的数据框名为 test1
,
library(dplyr)
names(test)[names(test)=='query'] <- 'ind'
inner_join(test, test1, by = 'ind')
# ind numerical_val values
#1 I love Mac 20 Mac
#2 I love Ubuntu 30 <NA>
#3 I love Android 40 Android
#4 I love both Android and Linux 50 Android
#5 I love both Android and Linux 50 Linux
或者,data.table
可能更有效,
setDT(test)[test1, on="ind"]
输入
listofstring <- c("Mac","Windows","Linux","Android")
test <- data.frame(query = c("I love Mac","I love Ubuntu","I love Android","I love both Android and Linux"), numerical_val = c(20,30,40,50))
我目前正在使用以下方法,它给出了我想要的输出:
library(stringr)
melt(setNames(lapply(str_extract_all(test$query,
paste(listofstring,collapse="|")), function(x)
if(length(x)==0) NA else x), test$query))[2:1]
# ind values
#1 I love Mac Mac
#2 I love Ubuntu <NA>
#3 I love Android Android
#4 I love both Android and Linux Android
#5 I love both Android and Linux Linux
所以,这是我想要的输出,我也得到了它。
现在我还想在输出中包含 numerical_val
。所以,输出会像
# ind values numerical_val
#1 I love Mac Mac 20
#2 I love Ubuntu <NA> 30
#3 I love Android Android 40
#4 I love both Android and Linux Android 50
#5 I love both Android and Linux Linux 50
谁能帮我修改一下我现在的方法。或者可以指导我更好的方法吗?
请注意,数据集非常庞大,目前的方法非常流畅。
假设生成的数据框名为 test1
,
library(dplyr)
names(test)[names(test)=='query'] <- 'ind'
inner_join(test, test1, by = 'ind')
# ind numerical_val values
#1 I love Mac 20 Mac
#2 I love Ubuntu 30 <NA>
#3 I love Android 40 Android
#4 I love both Android and Linux 50 Android
#5 I love both Android and Linux 50 Linux
或者,data.table
可能更有效,
setDT(test)[test1, on="ind"]