使用 spaCy NLP 的简单 Flask 应用程序间歇性挂起

Simple Flask app using spaCy NLP hangs intermittently

我正在开发一个简单的 Flask 应用程序,它最终会变成一个简单的 REST API,用于在给定的文本字符串上使用 spaCy 进行命名实体识别。我有一个简单的原型如下:

from flask import Flask, render_template, request, json
import spacy
from spacy import displacy

def to_json(doc):
        return [
                {
                'start': ent.start_char,
                'end': ent.end_char,
                'type': ent.label_,
                'text': str(ent),
                } for ent in doc.ents
                ]

nlp = spacy.load('en')

app = Flask(__name__)

@app.route('/')
def index():
        return render_template('index.html')

@app.route('/demo', methods=['GET', 'POST'])
def demo():
        q = request.values.get('text')
        doc = nlp(q)

        if request.values.get('type') == 'html':
                return displacy.render(doc, style='ent', page=True)
        else:
                return app.response_class(
                                response=json.dumps(to_json(doc), indent=4),
                                status=200,
                                mimetype='text/string'
                                )

if __name__ == '__main__':
     app.run(host='0.0.0.0')

Flask 应用程序使用 Ubuntu 上的 Apache 网络服务器提供服务。我使用简单的 Web 表单向应用程序提交文本,它 returns 结果为 HTML 或 JSON 文本。

我遇到的问题是该应用程序间歇性挂起......我无法弄清楚导致它挂起的原因。 Apache 错误日志中没有显示任何内容,挂起的请求也没有出现在 Apache 访问日志中。如果我在浏览器旋转时关闭服务器,浏览器会报告服务器提供了一个空响应。如果我重新启动服务器,错误日志报告 1 或 2 个子进程在 SIGTERM 后没有退出,并且必须发送 SIGKILL。

一个可能的线索是服务器启动时错误日志报告如下:

[Wed Dec 06 20:19:33.753041 2017] [wsgi:warn] [pid 1822:tid 140029812619136] mod_wsgi: Compiled for Python/2.7.11.
[Wed Dec 06 20:19:33.753055 2017] [wsgi:warn] [pid 1822:tid 140029812619136] mod_wsgi: Runtime using Python/2.7.12.

另一个可能的线索是 "index" 路由 (/) 似乎从未挂起。但是“/demo”路由可以挂起 request.values.get('type') == 'html' if 语句的两个分支。

编辑: 我已经将 Apache 和 mod_wsgi 排除在循环之外,现在 运行 使用独立 Flask 服务器的应用程序。该应用程序仍然偶尔会挂起...当它挂起时,我可以按 control-c 并且它始终 returns 以下作为最新代码:

Exception happened during processing of request from ('xxx.xxx.xxx.xxx', 55608)
Traceback (most recent call last):
  File "/usr/lib/python2.7/SocketServer.py", line 290, in _handle_request_noblock
    self.process_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", line 318, in process_request
    self.finish_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", line 331, in finish_request
    self.RequestHandlerClass(request, client_address, self)
  File "/usr/lib/python2.7/SocketServer.py", line 652, in __init__
    self.handle()
  File "/usr/local/lib/python2.7/dist-packages/werkzeug/serving.py", line 232, in handle
    rv = BaseHTTPRequestHandler.handle(self)
  File "/usr/lib/python2.7/BaseHTTPServer.py", line 340, in handle
    self.handle_one_request()
  File "/usr/local/lib/python2.7/dist-packages/werkzeug/serving.py", line 263, in handle_one_request
    self.raw_requestline = self.rfile.readline()
  File "/usr/lib/python2.7/socket.py", line 451, in readline
    data = self._sock.recv(self._rbufsize)
KeyboardInterrupt
----------------------------------------

按下 control-c 后,Flask 得到 "released" 然后 returns 我期望的结果。服务器继续正常运行,并将接受更多请求,直到再次挂起。有时,如果我等待足够长的时间,挂起的请求会自行返回。

这似乎越来越像是 Flask(或我如何使用它)的问题。如果有人可以提供有关如何追踪问题的建议,我将不胜感激!

尝试强制用户使用主 Python 解释器上下文,如以下所述:

Python 中的某些第三方 C 扩展模块在子解释器中无法正常工作,可能会挂起或使进程崩溃。

这似乎是 Spacy v2.0 中的一个已知问题。在我降级到 Spacy v1.9 后问题消失了。

详情请见:

https://github.com/explosion/spaCy/issues/1571

https://github.com/explosion/spaCy/issues/1572

与 Django 有同样的问题,降级到 1.10.0 解决了问题