MongoDB map-reduce(通过 nodejs):如何在 scopeObj 中包含复杂模块(具有依赖性)?

MongoDB map-reduce (via nodejs): How to include complex modules (with dependencies) in scopeObj?

我正在为 mongodb 数据库开发一个复杂的 map-reduce 过程。我已经将一些更复杂的代码拆分成模块,然后通过将其包含在我的 scopeObj 中来提供我的 map/reduce/finalize 函数,如下所示:

  const scopeObj = {
    userCalculations: require('../lib/userCalculations')
  }

  function myMapFn() {
    let userScore = userCalculations.overallScoreForUser(this)
    emit({
      'Key': this.userGroup
    }, {
      'UserCount': 1,
      'Score': userScore
    })
  }

  function myReduceFn(key, objArr) { /*...*/ }

  db.collection('userdocs').mapReduce(
    myMapFn,
    myReduceFn,
    {
      scope: scopeObj,
      query: {},
      out: {
        merge: 'userstats'
      }
    },
    function (err, stats) {
      return cb(err, stats);
    }
  )

...一切正常。直到最近我还认为不可能将模块代码包含到 map-reduce scopeObj 中,但事实证明那只是因为我试图包含的模块都依赖于其他模块。完全独立的模块似乎工作得很好。

这让我(终于)想到了我的问题。我如何——或者,就此而言,我应该——将更复杂的模块(包括我从 npm 提取的内容)合并到我的 map-reduce 代码中?我曾经想过使用 Browserify 或类似的东西将我所有的依赖项拉到一个文件中,然后以某种方式包含它......但我不确定这样做的正确方法是什么。而且我也不确定我在多大程度上冒着严重膨胀我的 map-reduce 代码的风险,这(出于显而易见的原因)必须是高效的。

有没有人有过这样的经历?如果有的话,结果如何?我是不是走错路了?

更新:澄清我要克服的问题: 在上面的代码中,require('../lib/userCalculations') 由 Node 执行——它读取文件 ../lib/userCalculations.js 并将该文件的 module.exports 对象的内容分配给 scopeObj.userCalculations。但是假设在 userCalculations.js 中某处调用了 require(...)。该调用尚未实际执行。因此,当我尝试在 Map 函数中调用 userCalculations.overallScoreForUser() 时,MongoDB 会尝试执行 require 函数。 require 未在 mongo 上定义。

Browserify,例如,通过将所有必需模块的所有代码编译到一个 javascript 文件中来处理这个问题,没有 require 调用,所以它可以是 运行在浏览器中。但这在这里并不完全有效,因为我需要生成的代码本身就是一个我可以使用的模块,就像我在代码示例中使用 userCalculations 一样。也许有一种我不知道的 运行 浏览器验证的奇怪方法?或者其他一些工具,只是 "flattens" 将整个模块层次结构整合到一个模块中?

希望这能澄清一点。

作为一般性回应,您的问题的答案是:我如何——或者,就此而言,我应该——合并更复杂的模块,包括我从 npm 中提取的东西,进入我的 map-reduce 代码? - 是 不,您不能安全地将复杂模块包含在您计划发送到 MongoDB 用于 mapReduce 作业的节点代码中 .

您自己提到了问题 - 嵌套 require 语句。现在,require 是同步的,但是如果你在里面有嵌套函数,这些 require 调用直到调用时间才会执行,并且 MongoDB VM 会在此时抛出。

考虑以下三个文件的示例:data.jsondep.jsmain.js

// data.json - just something we require "lazily"
false

// dep.js -- equivalent of your userCalculations
module.exports = {
  isValueTrue() {
    // The problem: nested require
    return require('./data.json');
  }
}


// main.js - from here you send your mapReduce to MongoDB.
// require dependency instantly
const calc = require('./dep.js');
// require is synchronous, the effectis the same if you do:
//   const calc = (function () {return require('./dep.js')})();

console.log('Calc is loaded.');
// Let's mess with unwary devs
require('fs').writeFileSync('./data.json', 'false');

// Is calc.isValueTrue() true or false here?
console.log(calc.isValueTrue());

作为通用方案,这是不可行的。虽然绝大多数模块可能没有嵌套 require 语句、HTTP 调用,甚至内部、服务调用、全局变量和类似的东西,但也有一些模块有。你不能保证这会奏效。

现在,作为您的本地实施:例如你需要特定版本的 NPM 模块,你已经用这种技术测试过并且你知道它会起作用,或者你自己发布了它们,这在某种程度上是可行的。

然而,即使在这种情况下,如果这是一个团队的努力,肯定会有开发人员不知道您的依赖项在哪里使用或如何使用全局变量(不是故意的,而是无意的) ,例如他们错误地计算 this) 或者根本不知道他们正在做的事情的含义。如果你有强大的集成测试套件,你可以防范这一点,但问题是,它是不可预测的。我个人认为,当您可以在不可预测和可预测之间进行选择时,几乎总是应该使用可预测。

现在,如果您有明确说明要在 MongoDB mapReduce 中使用某个库的目的,这会起作用。你必须很好地防范疏忽和问题,并进行强大的基础测试,但我会确保目的是明确的,然后才会感到足够安全,可以这样做。但是当然,如​​果你使用的东西太复杂以至于你需要几个 npm 包来做,也许你可以直接在 MongoDB 服务器上使用这些功能,也许你可以用更适合的东西来做你的 mapReducing目的,或类似的。

总而言之:作为一个有明确使命声明的有目的构建的库,它将与节点和 MongoDB mapReduce 一起使用,我会确保我的测试涵盖我所有的 mission-critical 和重要功能, 然后导入这样的 npm 包。否则我不会使用也不推荐这种方法。