如何使用聚合计算 运行 总数?

How to calculate the running total using aggregate?

我正在开发一个简单的财务应用程序来跟踪收入和结果。

为了简单起见,假设这些是我的一些文档:

{ description: "test1", amount: 100, dateEntry: ISODate("2015-01-07T23:00:00Z") }
{ description: "test2", amount: 50,  dateEntry: ISODate("2015-01-06T23:00:00Z") }
{ description: "test3", amount: 11,  dateEntry: ISODate("2015-01-09T23:00:00Z") }
{ description: "test4", amount: 2,   dateEntry: ISODate("2015-01-09T23:00:00Z") }
{ description: "test5", amount: 12,  dateEntry: ISODate("2015-01-09T23:00:00Z") }
{ description: "test6", amount: 4,   dateEntry: ISODate("2015-01-09T23:00:00Z") }

我现在想画一个“余额”图表,基于这样的数据:

{ day: "2015-01-06", amount: 50  }
{ day: "2015-01-07", amount: 150 }
{ day: "2015-01-09", amount: 179 }

换句话说,我需要按天对我所有的交易进行分组,并且对于每一天我都需要总结我以前的所有交易(自世界开始以来) .

我已经知道如何按天分组了:

$group: {
   _id: { 
      y: {$year:"$dateEntry"}, 
      m: {$month:"$dateEntry"}, 
      d: {$dayOfMonth:"$dateEntry"} 
   }, 
   sum: ???
}

但我不知道如何返回并计算所有金额。

假设我需要显示月度余额报告:我是否应该 运行 31 个查询,每天一个查询,汇总除接下来几天之外的所有交易金额?当然可以,但不要认为这是最好的解决方案。

实际上比聚合框架更适合mapReduce,至少在最初的问题解决上。聚合框架没有先前文档的值或文档的先前 "grouped" 值的概念,因此这就是它不能这样做的原因。

另一方面,mapReduce 有一个 "global scope" 可以在处理阶段和文档之间共享。这将使您在一天结束时获得当前余额的 "running total"。

db.collection.mapReduce(
  function () {
    var date = new Date(this.dateEntry.valueOf() -
      ( this.dateEntry.valueOf() % ( 1000 * 60 * 60 * 24 ) )
    );

    emit( date, this.amount );
  },
  function(key,values) {
      return Array.sum( values );
  },
  { 
      "scope": { "total": 0 },
      "finalize": function(key,value) {
          total += value;
          return total;
      },
      "out": { "inline": 1 }
  }
)      

这将按日期分组求和,然后在 "finalize" 部分中计算每一天的累计总和。

   "results" : [
            {
                    "_id" : ISODate("2015-01-06T00:00:00Z"),
                    "value" : 50
            },
            {
                    "_id" : ISODate("2015-01-07T00:00:00Z"),
                    "value" : 150
            },
            {
                    "_id" : ISODate("2015-01-09T00:00:00Z"),
                    "value" : 179
            }
    ],

从长远来看,您最好有一个单独的集合,每天都有一个条目,并在每天开始时使用 $inc in an update. Just also do an $inc upsert 更改余额,以创建一个结转余额的新文档前一天:

// increase balance
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": amount } },
    { "upsert": true }
);

// decrease balance
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": -amount } },
    { "upsert": true }
);

// Each day
var lastDay = db.daily.findOne({ "dateEntry": lastDate });
db.daily(
    { "dateEntry": currentDate },
    { "$inc": { "balance": lastDay.balance } },
    { "upsert": true }
);

如何不这样做

尽管确实因为最初的写作在聚合框架中引入了更多的运算符,但这里要问的仍然是实用在聚合语句中做的事情。

相同的基本规则适用于聚合框架不能引用先前"document"的值,也不能存储一个"global variable"。 "Hacking" 通过将所有结果强制转换成一个数组:

db.collection.aggregate([
  { "$group": {
    "_id": { 
      "y": { "$year": "$dateEntry" }, 
      "m": { "$month": "$dateEntry" }, 
      "d": { "$dayOfMonth": "$dateEntry" } 
    }, 
    "amount": { "$sum": "$amount" }
  }},
  { "$sort": { "_id": 1 } },
  { "$group": {
    "_id": null,
    "docs": { "$push": "$$ROOT" }
  }},
  { "$addFields": {
    "docs": {
      "$map": {
        "input": { "$range": [ 0, { "$size": "$docs" } ] },
        "in": {
          "$mergeObjects": [
            { "$arrayElemAt": [ "$docs", "$$this" ] },
            { "amount": { 
              "$sum": { 
                "$slice": [ "$docs.amount", 0, { "$add": [ "$$this", 1 ] } ]
              }
            }}
          ]
        }
      }
    }
  }},
  { "$unwind": "$docs" },
  { "$replaceRoot": { "newRoot": "$docs" } }
])

这既不是高性能解决方案,也不是 "safe" 考虑到较大的结果集 运行 突破 16MB BSON 限制的可能性非常大。作为 "golden rule",建议将所有内容放入单个文档的数组中的任何内容:

{ "$group": {
  "_id": null,
  "docs": { "$push": "$$ROOT" }
}}

那么这是一个基本缺陷,因此 不是解决方案


结论

处​​理此问题的更具决定性的方法通常是 post 在结果的 运行ning 游标上处理:

var globalAmount = 0;

db.collection.aggregate([
  { $group: {
    "_id": { 
      y: { $year:"$dateEntry"}, 
      m: { $month:"$dateEntry"}, 
      d: { $dayOfMonth:"$dateEntry"} 
    }, 
    amount: { "$sum": "$amount" }
  }},
  { "$sort": { "_id": 1 } }
]).map(doc => {
  globalAmount += doc.amount;
  return Object.assign(doc, { amount: globalAmount });
})

所以总的来说最好是:

  • 使用游标迭代和总计跟踪变量。 mapReduce 示例是上述简化过程的人为示例。

  • 使用预先汇总的总数。可能与游标迭代一致,具体取决于您的预聚合过程,无论是间隔总数还是 "carried forward" 运行ning 总数。

聚合框架应该真正用于"aggregating",仅此而已。通过像操纵数组这样的过程强制对数据进行强制转换来处理你想要的方式既不明智也不安全,最重要的是,客户端操作代码更清晰、更高效。

让数据库做它们擅长的事情,因为您 "manipulations" 在代码中处理得更好。

Mongo 5 开始,这是新 $setWindowFields 聚合运算符的完美用例:

// { day: "2015-01-06", "amount": 50 }
// { day: "2015-01-07", "amount": 100 }
// { day: "2015-01-09", "amount": 11 }
db.collection.aggregate([
  { $setWindowFields: {
    sortBy: { day: 1 },
    output: {
      cumulative: {
        $sum: "$amount",
        window: { documents: [ "unbounded", "current" ] }
      }
    }
  }}
])
// { day: "2015-01-06", amount: 50,  cumulative: 50 }
// { day: "2015-01-07", amount: 100, cumulative: 150 }
// { day: "2015-01-09", amount: 11,  cumulative: 161 }

这个:

  • 在每个文档中添加 cumulative 字段 (output: { cumulative: { ... }})
  • 这是 amount$sum ($sum: "$amount")
  • 在指定的文档范围内(window
    • 在我们的案例中,这是集合中的任何先前文档:window: { documents: [ "unbounded", "current" ] } }
    • [ "unbounded", "current" ] 定义,意思是 window 是第一个文档 (unbounded) 和当前文档 (current) 之间看到的所有文档。
  • 另请注意,我们确保按天对文档进行排序 (sortBy: { day: 1 })。

这里是对您的确切问题的完整查询(使用初始 $group 将您的文件按天分组,并按金额总和):

// { date: ISODate("2015-01-06T23:00:00Z"), "amount": 50 },
// { date: ISODate("2015-01-07T23:00:00Z"), "amount": 100 },
// { date: ISODate("2015-01-09T23:00:00Z"), "amount": 11 },
// { date: ISODate("2015-01-09T23:00:00Z"), "amount": 2 }
db.collection.aggregate([
  { $group: {
    _id: { $dateToString: { format: "%Y-%m-%d", date: "$date" } },
    "amount": { "$sum": "$amount" } }
  },
  { $setWindowFields: {
    sortBy: { _id: 1 },
    output: {
      cumulative: {
        $sum: "$amount",
        window: { documents: [ "unbounded", "current" ] }
      }
    }
  }}
])
// { _id: "2015-01-06", amount: 50,  cumulative: 50 }
// { _id: "2015-01-07", amount: 100, cumulative: 150 }
// { _id: "2015-01-09", amount: 13,  cumulative: 163 }