在 R 中使用 mongolite 的正则表达式
regex with mongolite in R
尝试与很棒的 mongolite 库进行正则表达式匹配,但我仍然不确定我做错了什么,真的很想知道我在这里错过了什么。
library(mongolite)
m <- mongo(url = "mongodb://192.168.1.5:27017", db = "products", collection = "sku")
m$count()
#gives 54524
a1 <- m$find('{"item" : { "$regex" : "/.*A*./i" }}')
returns Imported 0 records. Simplifying into dataframe...
#but when you do
a1 <- m$find('{"item" : "ABC"}')
#returns 8 records
a1 <- m$find('{"item" : "AAC"}')
#returns 5 records
a1 <- m$find('{"item" : "AAAC"}')
#returns 18 records
等等。所以我不确定我在 mongodb 中调用正则表达式运算符的方式有什么问题。任何线索。?谢谢
在 mongo shell 中,您将使用不带引号的 / ... /
。但是,在 mongolite
中你需要引号,否则它是 无效的 JSON
因此您需要使用 ... { "$regex" : ".*A*.", "$options" : "i"}...
考虑这个例子
library(mongolite)
m <- mongo(db = "test", collection = "test", url = "mongodb://localhost")
## create and insert some dummy data
set.seed(2016)
df <- data.frame(id = seq(1:100),
val = sample(letters, size = 100, replace = T))
m$insert(df)
## valid regex query in mongolite
m$find('{ "val" : { "$regex" : "^a", "$options" : "i" } }')
# Imported 5 records. Simplifying into dataframe...
# id val
# 1 26 a
# 2 53 a
# 3 61 a
# 4 76 a
# 5 100 a
## these queries don't work.
m$find('{ "val" : { "$regex" : "/^a/", "$options" : "i" } }')
# Imported 0 records. Simplifying into dataframe...
# data frame with 0 columns and 0 row
m$find('{ "val" : { "$regex" : /^a/, "$options" : "i" } }')
# Error: Invalid JSON object: { "val" : { "$regex" : /^a/, "$options" : "i" } }
而在 mongo shell(我使用 robomongo)中,您 可以 使用任一
db.test.find({ "val" : { "$regex" : /^a/ } })
## or
db.test.find({ "val" : { "$regex" : "^a" } })
现在,如果您希望以更快的速度将数据输入 R
,并且可以将结果强制转换为 data.table
而不会丢失数据,您可以使用包 I我写的扩展 mongolite
使用 data.table::rbindlist
将结果转换为 data.table
。速度提高是因为它假定您的数据位于 "tabular" 结构中,并避免了 mongolite 中将 JSON 简化为 data.frame 的递归调用。有关详细信息,请参阅 my github page。
# library(devtools)
# install_github("SymbolixAU/mongolitedt")
library(mongolitedt)
bind_mongolitedt(m)
m$finddt('{ "val" : { "$regex" : "^A", "$options" : "i" } }')
## returns a data.table
# Imported 5 records.
# id val
# 1: 26 a
# 2: 53 a
# 3: 61 a
# 4: 76 a
# 5: 100 a
尝试与很棒的 mongolite 库进行正则表达式匹配,但我仍然不确定我做错了什么,真的很想知道我在这里错过了什么。
library(mongolite)
m <- mongo(url = "mongodb://192.168.1.5:27017", db = "products", collection = "sku")
m$count()
#gives 54524
a1 <- m$find('{"item" : { "$regex" : "/.*A*./i" }}')
returns Imported 0 records. Simplifying into dataframe...
#but when you do
a1 <- m$find('{"item" : "ABC"}')
#returns 8 records
a1 <- m$find('{"item" : "AAC"}')
#returns 5 records
a1 <- m$find('{"item" : "AAAC"}')
#returns 18 records
等等。所以我不确定我在 mongodb 中调用正则表达式运算符的方式有什么问题。任何线索。?谢谢
在 mongo shell 中,您将使用不带引号的 / ... /
。但是,在 mongolite
中你需要引号,否则它是 无效的 JSON
因此您需要使用 ... { "$regex" : ".*A*.", "$options" : "i"}...
考虑这个例子
library(mongolite)
m <- mongo(db = "test", collection = "test", url = "mongodb://localhost")
## create and insert some dummy data
set.seed(2016)
df <- data.frame(id = seq(1:100),
val = sample(letters, size = 100, replace = T))
m$insert(df)
## valid regex query in mongolite
m$find('{ "val" : { "$regex" : "^a", "$options" : "i" } }')
# Imported 5 records. Simplifying into dataframe...
# id val
# 1 26 a
# 2 53 a
# 3 61 a
# 4 76 a
# 5 100 a
## these queries don't work.
m$find('{ "val" : { "$regex" : "/^a/", "$options" : "i" } }')
# Imported 0 records. Simplifying into dataframe...
# data frame with 0 columns and 0 row
m$find('{ "val" : { "$regex" : /^a/, "$options" : "i" } }')
# Error: Invalid JSON object: { "val" : { "$regex" : /^a/, "$options" : "i" } }
而在 mongo shell(我使用 robomongo)中,您 可以 使用任一
db.test.find({ "val" : { "$regex" : /^a/ } })
## or
db.test.find({ "val" : { "$regex" : "^a" } })
现在,如果您希望以更快的速度将数据输入 R
,并且可以将结果强制转换为 data.table
而不会丢失数据,您可以使用包 I我写的扩展 mongolite
使用 data.table::rbindlist
将结果转换为 data.table
。速度提高是因为它假定您的数据位于 "tabular" 结构中,并避免了 mongolite 中将 JSON 简化为 data.frame 的递归调用。有关详细信息,请参阅 my github page。
# library(devtools)
# install_github("SymbolixAU/mongolitedt")
library(mongolitedt)
bind_mongolitedt(m)
m$finddt('{ "val" : { "$regex" : "^A", "$options" : "i" } }')
## returns a data.table
# Imported 5 records.
# id val
# 1: 26 a
# 2: 53 a
# 3: 61 a
# 4: 76 a
# 5: 100 a