在 MongoDB 中索引对象数组
Indexing arrays of objects in MongoDB
我有一个巨大的电子邮件转储,我正试图在 MongoDB 中存储和查询。有 160 万封电子邮件,每封都存储为 Node module 的输出,该 Node module 将原始电子邮件解析为漂亮的 Javascript 对象,如下所示:
{
"text" : "This is the text of my email",
"subject" : "Great opportunity",
"from" : [
{
"address" : "chris.wilson@example.com",
"name" : "Chris Wilson"
}
],
"to" : [
{
"address" : "person.a@example.com",
"name" : "Person A"
},
{
"address" : "person.b@example.com",
"name" : "Person B"
},
{
"address" : "person.c@example.com",
"name" : "Person C"
}
],
"date" : ISODate("2015-01-05T21:38:55.000Z")
}
我需要能够高效地查找诸如 "All emails sent to person.a@gmail.com" 或 "Every email sent by 'Chris Wilson'" 之类的内容(无论该名称附加了哪个电子邮件地址)。
Mongo 非常愿意为我索引 "to" 和 "from" 查询,但我不确定执行此操作时查询是否有效:
db.emails.find({ "to.name": "Person A" })
这是一个覆盖查询,用于在作为键值对象数组的字段中查找特定属性的特定值吗?这个查询对我来说运行非常慢,但它又是一个大语料库。
更新
这是将“.explain”附加到上述查询的输出:
{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 24,
"nscannedObjects" : 1646837,
"nscanned" : 1646837,
"nscannedObjectsAllPlans" : 1646837,
"nscannedAllPlans" : 1646837,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 17088,
"nChunkSkips" : 0,
"millis" : 84685,
"server" : "DCA-TM-GUEST-iMac.local:27017",
"filterSet" : false
}
很好,是的。不过,您需要 to.name
上的索引才能使该查询高效。它当前使用 BasicCursor
的事实表明没有索引,或者没有使用索引——这很奇怪。作为参考,这些称为“multikeys”。
Is this a covered query [...]
我猜你的意思是 'covered' 是 "is this functionality covered by MongoDB" 的意思? 'Covered query' 是一个术语,用于表示可以单独使用索引来回答的查询。仅当您要返回的所有字段都是索引的一部分时,查询才能被索引覆盖(例如,给我 ID,并且只提供发送给 John Doe 的电子邮件的 ID),但这在我猜是这种情况。另外,遗憾的是,现在 not supported when reaching into documents。
我有一个巨大的电子邮件转储,我正试图在 MongoDB 中存储和查询。有 160 万封电子邮件,每封都存储为 Node module 的输出,该 Node module 将原始电子邮件解析为漂亮的 Javascript 对象,如下所示:
{
"text" : "This is the text of my email",
"subject" : "Great opportunity",
"from" : [
{
"address" : "chris.wilson@example.com",
"name" : "Chris Wilson"
}
],
"to" : [
{
"address" : "person.a@example.com",
"name" : "Person A"
},
{
"address" : "person.b@example.com",
"name" : "Person B"
},
{
"address" : "person.c@example.com",
"name" : "Person C"
}
],
"date" : ISODate("2015-01-05T21:38:55.000Z")
}
我需要能够高效地查找诸如 "All emails sent to person.a@gmail.com" 或 "Every email sent by 'Chris Wilson'" 之类的内容(无论该名称附加了哪个电子邮件地址)。
Mongo 非常愿意为我索引 "to" 和 "from" 查询,但我不确定执行此操作时查询是否有效:
db.emails.find({ "to.name": "Person A" })
这是一个覆盖查询,用于在作为键值对象数组的字段中查找特定属性的特定值吗?这个查询对我来说运行非常慢,但它又是一个大语料库。
更新
这是将“.explain”附加到上述查询的输出:
{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 24,
"nscannedObjects" : 1646837,
"nscanned" : 1646837,
"nscannedObjectsAllPlans" : 1646837,
"nscannedAllPlans" : 1646837,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 17088,
"nChunkSkips" : 0,
"millis" : 84685,
"server" : "DCA-TM-GUEST-iMac.local:27017",
"filterSet" : false
}
很好,是的。不过,您需要 to.name
上的索引才能使该查询高效。它当前使用 BasicCursor
的事实表明没有索引,或者没有使用索引——这很奇怪。作为参考,这些称为“multikeys”。
Is this a covered query [...]
我猜你的意思是 'covered' 是 "is this functionality covered by MongoDB" 的意思? 'Covered query' 是一个术语,用于表示可以单独使用索引来回答的查询。仅当您要返回的所有字段都是索引的一部分时,查询才能被索引覆盖(例如,给我 ID,并且只提供发送给 John Doe 的电子邮件的 ID),但这在我猜是这种情况。另外,遗憾的是,现在 not supported when reaching into documents。