如何使用 scrapy_splash 包在表单 post 之后重定向?
How to redirect after form post with scrapy_splash package?
我正在使用 Python、Scrapy、Splash 和 scrapy_splash 包来抓取网站。
我可以在 scrapy_splash 中使用 SplashRequest object 登录。
登录创建一个 cookie,使我可以访问门户页面。至此一切正常。
在门户页面上,有一个包含多个按钮的表单元素。单击时,操作 URL 会更新并触发表单提交。表单提交导致 302 重定向。
我对 SplashRequest 尝试了相同的方法,但是,我无法捕获随重定向返回的 SSO 查询参数。我试图读取 header Location 参数但没有成功。
我也尝试过将 lua 脚本与 SplashRequest object 结合使用,但是,我仍然无法访问重定向位置 object。
任何指导将不胜感激。
我知道还有其他可用的解决方案(即 selenium),但是上述技术是我们在大量其他脚本中使用的技术,我对是否为这个特定用例添加新技术犹豫不决。
# Lua script to capture cookies and SSO query parameter from 302 Redirect
lua_script = """
function main(splash)
if splash.args.cookies then
splash:init_cookies(splash.args.cookies)
end
assert(splash:go{
splash.args.url,
headers=splash.args.headers,
http_method=splash.args.http_method,
body=splash.args.body,
formdata=splash.args.formdata
})
assert(splash:wait(0))
local entries = splash:history()
local last_response = entries[#entries].response
return {
url = splash:url(),
headers = last_response.headers,
http_status = last_response.status,
cookies = splash:get_cookies(),
html = splash:html(),
}
end
"""
def parse(self, response):
yield SplashRequest(
url='https://members.example.com/login',
callback=self.portal_page,
method='POST',
endpoint='execute',
args={
'wait': 0.5,
'lua_source': self.lua_script,
'formdata': {
'username': self.login,
'password': self.password
},
}
)
def portal_page(self, response):
yield SplashRequest(
url='https://data.example.com/portal'
callback=self.data_download,
args={
'wait': 0.5,
'lua_source': self.lua_script,
'formdata': {}
},
)
def data_download(self, response):
print(response.body.decode('utf8')
我用一个工作示例更新了上面的问题。
我更改了一些内容,但我遇到的问题与缺少 splash:init_cookies(splash.args.cookies)
参考直接相关。
我还从使用 SplashFormRequest
转换为 SplashRequest
,重构了 splash:go
块并删除了对特定形式的引用。
再次感谢@MikhailKorobov 的帮助。
我正在使用 Python、Scrapy、Splash 和 scrapy_splash 包来抓取网站。
我可以在 scrapy_splash 中使用 SplashRequest object 登录。 登录创建一个 cookie,使我可以访问门户页面。至此一切正常。
在门户页面上,有一个包含多个按钮的表单元素。单击时,操作 URL 会更新并触发表单提交。表单提交导致 302 重定向。
我对 SplashRequest 尝试了相同的方法,但是,我无法捕获随重定向返回的 SSO 查询参数。我试图读取 header Location 参数但没有成功。
我也尝试过将 lua 脚本与 SplashRequest object 结合使用,但是,我仍然无法访问重定向位置 object。
任何指导将不胜感激。
我知道还有其他可用的解决方案(即 selenium),但是上述技术是我们在大量其他脚本中使用的技术,我对是否为这个特定用例添加新技术犹豫不决。
# Lua script to capture cookies and SSO query parameter from 302 Redirect
lua_script = """
function main(splash)
if splash.args.cookies then
splash:init_cookies(splash.args.cookies)
end
assert(splash:go{
splash.args.url,
headers=splash.args.headers,
http_method=splash.args.http_method,
body=splash.args.body,
formdata=splash.args.formdata
})
assert(splash:wait(0))
local entries = splash:history()
local last_response = entries[#entries].response
return {
url = splash:url(),
headers = last_response.headers,
http_status = last_response.status,
cookies = splash:get_cookies(),
html = splash:html(),
}
end
"""
def parse(self, response):
yield SplashRequest(
url='https://members.example.com/login',
callback=self.portal_page,
method='POST',
endpoint='execute',
args={
'wait': 0.5,
'lua_source': self.lua_script,
'formdata': {
'username': self.login,
'password': self.password
},
}
)
def portal_page(self, response):
yield SplashRequest(
url='https://data.example.com/portal'
callback=self.data_download,
args={
'wait': 0.5,
'lua_source': self.lua_script,
'formdata': {}
},
)
def data_download(self, response):
print(response.body.decode('utf8')
我用一个工作示例更新了上面的问题。
我更改了一些内容,但我遇到的问题与缺少 splash:init_cookies(splash.args.cookies)
参考直接相关。
我还从使用 SplashFormRequest
转换为 SplashRequest
,重构了 splash:go
块并删除了对特定形式的引用。
再次感谢@MikhailKorobov 的帮助。