我无法弄清楚的奇怪 ECONNRESET 错误

Strange ECONNRESET error I cannot figure out

我不知道,这是否与 koa 有关,或者是其他 npm 模块或其他问题。我将从这里开始。

所以问题来了。我正在用 koa v1 编写 REST api。我们是 Docker 图像中的 运行ning 节点服务器。我们拥有的端点之一开始导入和 returns 状态 200 消息:"import started",当导入完成时,我们发送 Slack 消息通知我们。

所以首先我在我的本地机器上测试了服务器,一切正常(端点不会抛出任何错误)。然后我构建了 docker 图像。我 运行 本地容器,一切正常(端点不会抛出任何错误)。我将我的图像部署到 Mesos 环境,到目前为止一切正常。容器 运行s,除导入端点外,每个端点都有效。当我调用它时,几秒钟(5 到 10 秒)后,我收到 ECONNRESET 错误,运行ning 容器被杀死,新的 运行ning 实例启动。因此导入终止。

一开始我们为 docker 容器分配了 128 MB 内存,这似乎足够了。发生导入错误后,我们认为可能是 OOM 杀死了进程。所以我们决定检查 dmesg,我们找不到任何与 OOM 和 运行ning 容器进程相关的日志条目。然后我们在本地(使用 htop)检查容器的 ram 使用情况,发现它使用 aprox。 250+ MB,所以我们决定在 marathon 配置中添加更多内存 (512 MB)。然而,这没有帮助,发生了同样的错误。

因为错误不够明确,我们安装了longjohn模块,所以我们可以得到更详细的错误信息。这让我们获得了更多信息,但没有我们想象的那么多。

Error: read ECONNRESET
      at exports._errnoException (util.js:1026:11)
      at TCP.onread (net.js:569:26)
  ---------------------------------------------
      at Application.app.callback (/src/node_modules/koa/lib/application.js:130:45)
      at Application.app.listen (/src/node_modules/koa/lib/application.js:73:39)
      at Promise.then.result (/src/server.js:97:13)


  Error: read ECONNRESET
      at exports._errnoException (util.js:1026:11)
      at TCP.onread (net.js:569:26)

server.js 的第 97 行是:

 96:if(!module.parent) {
 97:    app.listen(port, (err) => {
 98:        if (err) {
 99:            console.error('Server error', err);
100:        }
101:        console.log('Listening on the port', port);
102:    });
103:}

端点逻辑中到底发生了什么。我们正在使用 postgres npm 模块 pg。我们将 pg.Pool 传递给上下文,因此稍后我们可以在我们的模型中使用它。我们正在执行封装在数组中的 promise 和 push promise 中的插入查询。大约有 2700 多条记录。稍后我们对承诺数组执行 Promise.all 并使用 then 将消息发送到 Slack。

如您所见,我不知道该错误是否与 koapg 或其他问题有关。更有趣的是,本地一切正常(节点服务器以及 docker 容器),但在 Mesos 上却不行。我怎样才能找出问题所在?

根据this github issue this is an error caused by tiny-lr

似乎降级到版本 0.2.1 会停止它,但这通常是您无法控制的您正在使用的其他包的依赖项。您可以通过显示除此之外的所有错误来过滤掉错误,例如:

if (error.code !== 'ECONNRESET') { console.log(error) }

问题仍未解决,日期为 2016 年 10 月 27 日。不知道是否会得到修复。但就反馈而言,这似乎不是一个危险的错误,也不会产生任何影响。但是,嘿,如果有办法的话,我也宁愿修理我的。

感谢另一位开发人员,我们找到了错误的原因。当有导入 运行.

时,我们使用了池中的所有连接

当马拉松请求导入时的服务状态时,服务尝试连接到数据库以测试连接,此时与数据库的连接被终止。服务变得不健康,马拉松重新启动了服务。我们重构了导入代码。我们正在限制池连接数。