Python-Twisted:反向代理到 HTTPS API:无法连接
Python-Twisted: Reverse Proxy to HTTPS API: Could not connect
我正在尝试构建一个反向代理来与某些 APIs(如 Twitter、Github、Instagram)对话,然后我可以用我的反向代理调用任何(客户端) ) 我想要的应用程序(把它想象成一个 API-manager)。
此外,我正在使用 LXC 容器来执行此操作。
例如,这是我从 Twisted Docs 上的示例中破解的最简单的代码:
from twisted.internet import reactor
from twisted.web import proxy, server
from twisted.python.log import startLogging
from sys import stdout
startLogging(stdout)
site = server.Site(proxy.ReverseProxyResource('https://api.github.com/users/defunkt', 443, b''))
reactor.listenTCP(8080, site)
reactor.run()
当我在容器中执行 CURL 时,我得到了一个有效请求(意味着我得到了适当的 JSON 响应)。
下面是我如何使用 CURL 命令:
curl https://api.github.com/users/defunkt
这是我得到的输出:
{
"login": "defunkt",
"id": 2,
"avatar_url": "https://avatars.githubusercontent.com/u/2?v=3",
"gravatar_id": "",
"url": "https://api.github.com/users/defunkt",
"html_url": "https://github.com/defunkt",
"followers_url": "https://api.github.com/users/defunkt/followers",
"following_url": "https://api.github.com/users/defunkt/following{/other_user}",
"gists_url": "https://api.github.com/users/defunkt/gists{/gist_id}",
"starred_url": "https://api.github.com/users/defunkt/starred{/owner}{/repo}",
"subscriptions_url": "https://api.github.com/users/defunkt/subscriptions",
"organizations_url": "https://api.github.com/users/defunkt/orgs",
"repos_url": "https://api.github.com/users/defunkt/repos",
"events_url": "https://api.github.com/users/defunkt/events{/privacy}",
"received_events_url": "https://api.github.com/users/defunkt/received_events",
"type": "User",
"site_admin": true,
"name": "Chris Wanstrath",
"company": "GitHub",
"blog": "http://chriswanstrath.com/",
"location": "San Francisco",
"email": "chris@github.com",
"hireable": true,
"bio": null,
"public_repos": 107,
"public_gists": 280,
"followers": 15153,
"following": 208,
"created_at": "2007-10-20T05:24:19Z",
"updated_at": "2016-02-26T22:34:27Z"
}
但是,当我尝试使用 Firefox 获取代理时:
我得到:"Could not connect"
这是我的 Twisted 日志的样子:
2016-02-27 [-] Log opened.
2016-02-27 [-] Site starting on 8080
2016-02-27 [-] Starting factory
2016-02-27 [-] Starting factory
2016-02-27 [-] "10.5.5.225" - - [27/Feb/2016: +0000] "GET / HTTP/1.1" 501 26 "-" "Mozilla/5.0 (X11; Debian; Linux x86_64; rv:44.0) Gecko/20100101 Firefox/44.0"
2016-02-27 [-] Stopping factory
我如何使用 Twisted 进行 API 调用(现在大多数 API 都是 HTTPS)并获得所需的响应(基本上,“200” response/JSON应该是)?
我试着看这个问题:
但从编码的角度来看(或提及任何有关反向代理的内容),它并没有多大意义。
**编辑:我还尝试使用以下方式关闭 HTTPS API 调用以进行常规 HTTP 调用:
curl http[colon][slash][slash]openlibrary[dot]org[slash]authors[slash]OL1A.json
(上面的URL已被格式化以避免link-冲突问题)
但是,我的浏览器仍然出现同样的错误(如上所述)。
**Edit2:我试过 运行 你的代码,但我得到这个错误:
Error-screenshot
如果您查看图像,您会看到以下错误(当 运行 代码时):
builtins.AttributeError: 'str' object has no attribute 'decode'
如果你阅读 API documentation for ReverseProxyResource
,你会看到 __init__
的签名是:
def __init__(self, host, port, path, reactor=reactor):
和“host
”记录为 "the host of the web server to proxy"。
因此您正在传递一个 URI,其中 Twisted 需要一个主机。
更糟糕的是,ReverseProxyResource
专为在网络服务器上本地使用而设计,完全 不支持开箱即用的 https://
URL。
它 确实 有一个(非常有限的)可扩展性钩子 - proxyClientFactoryClass
- 并为 ReverseProxyResource
没有你需要的东西而道歉框,我将向您展示如何使用它来扩展 ReverseProxyResource
以添加 https://
支持,以便您可以使用 GitHub API :).
from twisted.web import proxy, server
from twisted.logger import globalLogBeginner, textFileLogObserver
from twisted.protocols.tls import TLSMemoryBIOFactory
from twisted.internet import ssl, defer, task, endpoints
from sys import stdout
globalLogBeginner.beginLoggingTo([textFileLogObserver(stdout)])
class HTTPSReverseProxyResource(proxy.ReverseProxyResource, object):
def proxyClientFactoryClass(self, *args, **kwargs):
"""
Make all connections using HTTPS.
"""
return TLSMemoryBIOFactory(
ssl.optionsForClientTLS(self.host.decode("ascii")), True,
super(HTTPSReverseProxyResource, self)
.proxyClientFactoryClass(*args, **kwargs))
def getChild(self, path, request):
"""
Ensure that implementation of C{proxyClientFactoryClass} is honored
down the resource chain.
"""
child = super(HTTPSReverseProxyResource, self).getChild(path, request)
return HTTPSReverseProxyResource(child.host, child.port, child.path,
child.reactor)
@task.react
def main(reactor):
import sys
forever = defer.Deferred()
myProxy = HTTPSReverseProxyResource('api.github.com', 443,
b'/users/defunkt')
myProxy.putChild("", myProxy)
site = server.Site(myProxy)
endpoint = endpoints.serverFromString(
reactor,
dict(enumerate(sys.argv)).get(1, "tcp:8080:interface=127.0.0.1")
)
endpoint.listen(site)
return forever
如果你 运行 这个,curl http://localhost:8080/
应该会如你所愿。
我冒昧地对您的 Twisted 代码进行了一些现代化改造; endpoints instead of listenTCP
, logger instead of twisted.python.log
, and react
而不是自己启动反应器。
末尾那个奇怪的小 putChild
部分是因为当我们将 b"/users/defunkt"
作为路径传递时,这意味着对 /
的请求将导致客户端请求 /users/defunkt/
(注意尾部斜杠),这是 GitHub 的 API 中的 404。如果我们显式代理空子段路径,就好像它没有尾随段一样,我相信它会达到您的预期。
请注意:从纯文本 HTTP 到加密 HTTPS 的代理可以是 非常dangerous,所以我在这里添加了一个默认的localhost-only监听接口。如果您的字节通过实际网络传输,您应该确保它们使用 TLS 正确加密。
我正在尝试构建一个反向代理来与某些 APIs(如 Twitter、Github、Instagram)对话,然后我可以用我的反向代理调用任何(客户端) ) 我想要的应用程序(把它想象成一个 API-manager)。
此外,我正在使用 LXC 容器来执行此操作。
例如,这是我从 Twisted Docs 上的示例中破解的最简单的代码:
from twisted.internet import reactor
from twisted.web import proxy, server
from twisted.python.log import startLogging
from sys import stdout
startLogging(stdout)
site = server.Site(proxy.ReverseProxyResource('https://api.github.com/users/defunkt', 443, b''))
reactor.listenTCP(8080, site)
reactor.run()
当我在容器中执行 CURL 时,我得到了一个有效请求(意味着我得到了适当的 JSON 响应)。
下面是我如何使用 CURL 命令:
curl https://api.github.com/users/defunkt
这是我得到的输出:
{
"login": "defunkt",
"id": 2,
"avatar_url": "https://avatars.githubusercontent.com/u/2?v=3",
"gravatar_id": "",
"url": "https://api.github.com/users/defunkt",
"html_url": "https://github.com/defunkt",
"followers_url": "https://api.github.com/users/defunkt/followers",
"following_url": "https://api.github.com/users/defunkt/following{/other_user}",
"gists_url": "https://api.github.com/users/defunkt/gists{/gist_id}",
"starred_url": "https://api.github.com/users/defunkt/starred{/owner}{/repo}",
"subscriptions_url": "https://api.github.com/users/defunkt/subscriptions",
"organizations_url": "https://api.github.com/users/defunkt/orgs",
"repos_url": "https://api.github.com/users/defunkt/repos",
"events_url": "https://api.github.com/users/defunkt/events{/privacy}",
"received_events_url": "https://api.github.com/users/defunkt/received_events",
"type": "User",
"site_admin": true,
"name": "Chris Wanstrath",
"company": "GitHub",
"blog": "http://chriswanstrath.com/",
"location": "San Francisco",
"email": "chris@github.com",
"hireable": true,
"bio": null,
"public_repos": 107,
"public_gists": 280,
"followers": 15153,
"following": 208,
"created_at": "2007-10-20T05:24:19Z",
"updated_at": "2016-02-26T22:34:27Z"
}
但是,当我尝试使用 Firefox 获取代理时:
我得到:"Could not connect"
这是我的 Twisted 日志的样子:
2016-02-27 [-] Log opened.
2016-02-27 [-] Site starting on 8080
2016-02-27 [-] Starting factory
2016-02-27 [-] Starting factory
2016-02-27 [-] "10.5.5.225" - - [27/Feb/2016: +0000] "GET / HTTP/1.1" 501 26 "-" "Mozilla/5.0 (X11; Debian; Linux x86_64; rv:44.0) Gecko/20100101 Firefox/44.0"
2016-02-27 [-] Stopping factory
我如何使用 Twisted 进行 API 调用(现在大多数 API 都是 HTTPS)并获得所需的响应(基本上,“200” response/JSON应该是)?
我试着看这个问题:
但从编码的角度来看(或提及任何有关反向代理的内容),它并没有多大意义。
**编辑:我还尝试使用以下方式关闭 HTTPS API 调用以进行常规 HTTP 调用:
curl http[colon][slash][slash]openlibrary[dot]org[slash]authors[slash]OL1A.json
(上面的URL已被格式化以避免link-冲突问题)
但是,我的浏览器仍然出现同样的错误(如上所述)。
**Edit2:我试过 运行 你的代码,但我得到这个错误:
Error-screenshot
如果您查看图像,您会看到以下错误(当 运行 代码时):
builtins.AttributeError: 'str' object has no attribute 'decode'
如果你阅读 API documentation for ReverseProxyResource
,你会看到 __init__
的签名是:
def __init__(self, host, port, path, reactor=reactor):
和“host
”记录为 "the host of the web server to proxy"。
因此您正在传递一个 URI,其中 Twisted 需要一个主机。
更糟糕的是,ReverseProxyResource
专为在网络服务器上本地使用而设计,完全 不支持开箱即用的 https://
URL。
它 确实 有一个(非常有限的)可扩展性钩子 - proxyClientFactoryClass
- 并为 ReverseProxyResource
没有你需要的东西而道歉框,我将向您展示如何使用它来扩展 ReverseProxyResource
以添加 https://
支持,以便您可以使用 GitHub API :).
from twisted.web import proxy, server
from twisted.logger import globalLogBeginner, textFileLogObserver
from twisted.protocols.tls import TLSMemoryBIOFactory
from twisted.internet import ssl, defer, task, endpoints
from sys import stdout
globalLogBeginner.beginLoggingTo([textFileLogObserver(stdout)])
class HTTPSReverseProxyResource(proxy.ReverseProxyResource, object):
def proxyClientFactoryClass(self, *args, **kwargs):
"""
Make all connections using HTTPS.
"""
return TLSMemoryBIOFactory(
ssl.optionsForClientTLS(self.host.decode("ascii")), True,
super(HTTPSReverseProxyResource, self)
.proxyClientFactoryClass(*args, **kwargs))
def getChild(self, path, request):
"""
Ensure that implementation of C{proxyClientFactoryClass} is honored
down the resource chain.
"""
child = super(HTTPSReverseProxyResource, self).getChild(path, request)
return HTTPSReverseProxyResource(child.host, child.port, child.path,
child.reactor)
@task.react
def main(reactor):
import sys
forever = defer.Deferred()
myProxy = HTTPSReverseProxyResource('api.github.com', 443,
b'/users/defunkt')
myProxy.putChild("", myProxy)
site = server.Site(myProxy)
endpoint = endpoints.serverFromString(
reactor,
dict(enumerate(sys.argv)).get(1, "tcp:8080:interface=127.0.0.1")
)
endpoint.listen(site)
return forever
如果你 运行 这个,curl http://localhost:8080/
应该会如你所愿。
我冒昧地对您的 Twisted 代码进行了一些现代化改造; endpoints instead of listenTCP
, logger instead of twisted.python.log
, and react
而不是自己启动反应器。
末尾那个奇怪的小 putChild
部分是因为当我们将 b"/users/defunkt"
作为路径传递时,这意味着对 /
的请求将导致客户端请求 /users/defunkt/
(注意尾部斜杠),这是 GitHub 的 API 中的 404。如果我们显式代理空子段路径,就好像它没有尾随段一样,我相信它会达到您的预期。
请注意:从纯文本 HTTP 到加密 HTTPS 的代理可以是 非常dangerous,所以我在这里添加了一个默认的localhost-only监听接口。如果您的字节通过实际网络传输,您应该确保它们使用 TLS 正确加密。