Twisted giving twisted.web.client.PartialDownloadError: 200 OK

Twisted giving twisted.web.client.PartialDownloadError: 200 OK

我有以下代码片段,对原始 docs. The code works properly when url is set to http://google.com. But it crashes when this is changed to http://www.google.com 稍作修改。崩溃时的错误是 Failure: twisted.web.client.PartialDownloadError: 200 OK。回溯在代码片段下方。

最初我认为可能是由于未正确处理 SSL 而导致代码崩溃。但是,查看 headers 这似乎不是问题所在。这是我第一次使用 Twisted;我不知道还有什么可能导致这个问题。

代码

from sys import argv
from pprint import pformat
from twisted.internet.task import react
from twisted.web.client import Agent, BrowserLikeRedirectAgent, readBody
from twisted.web.http_headers import Headers
from twisted.internet import reactor
from twisted.internet.ssl import ClientContextFactory

responses = []

class WebClientContextFactory(ClientContextFactory):
    def getContext(self, hostname, port):
        return ClientContextFactory.getContext(self)

def cbBody(r):
    print 'Response body:'
    print r
    responses.append(r)

def cbRequest(response):
    print 'Response version:', response.version
    print 'Response code:', response.code
    print 'Response phrase:', response.phrase
    print 'Response headers:'
    print pformat(list(response.headers.getAllRawHeaders()))
    d = readBody(response)
    d.addCallback(cbBody)
    return d

def main(reactor):
    contextFactory = WebClientContextFactory()
    agent = BrowserLikeRedirectAgent(Agent(reactor, contextFactory))
    url=b"http://google.com/"
    agent = Agent(reactor, contextFactory)
    d = agent.request(
        'GET', url,
        Headers({'User-Agent': ['Twisted Web Client Example']}),
        None)
    d.addCallback(cbRequest)
    return d

react(main)

回溯

In [1]: %tb
---------------------------------------------------------------------------
SystemExit                                Traceback (most recent call last)
/usr/local/lib/python2.7/site-packages/IPython/utils/py3compat.pyc in execfile(fname, glob, loc, compiler)
    218             else:
    219                 scripttext = builtin_mod.open(fname).read().rstrip() + '\n'
--> 220                 exec(compiler(scripttext, filename, 'exec'), glob, loc)
    221
    222

/project/demo.py in <module>()
     42     return d
     43
---> 44 react(main)

/usr/local/lib/python2.7/site-packages/twisted/internet/task.pyc in react(main, argv, _reactor)
    902     finished.addBoth(cbFinish)
    903     _reactor.run()
--> 904     sys.exit(codes[0])
    905
    906

SystemExit: 1

对不同 URL 的请求产生不同的响应不足为奇。 URL 标识不同的资源。当请求不同的资源时,您可能应该期望得到不同的响应。

当您请求 http://www.google.com/ 时得到 PartialDownloadError 的原因是 Google 发送的响应中既没有 Content-Length 也没有 Transfer-Encoding: chunked .这意味着客户端知道何时收到响应的唯一方法是关闭 TCP 连接。不幸的是,TCP 连接可能由于其他原因而关闭 - 因此是否完全收到响应是不明确的。

Google 似乎以这种方式构建响应以响应 Agent 如何发出请求的特定细节。 Google 以 Transfer-Encoding: chunked 响应其他代理人提出的请求。

解决此问题的一个方法是决定您不关心响应是否在您不知情的情况下被截断。在这种情况下,向处理 PartialDownloadErrorreadBody Deferred 添加一个 errback。异常有一个 response 属性,为您提供在 TCP 连接关闭之前读取的数据。获取该数据并 return 它,现在您已经将可能失败的案例转换为一个谁在乎的假装成功的案例。

另一种选择是尝试修改请求的细节,直到您说服 Google 给您 Transfer-Encoding: chunked(或至少 Content-Length)。当然,一旦您遇到另一台不想给您其中之一的服务器,此解决方案就会中断。