有什么方法可以在使用 scrapy 进行抓取时设置 JSESSIONID
Is there any way to set JSESSIONID while doing scraping using scrapy
我正在为这个网站在 Scrapy 中编写爬虫代码
[https://www.garageclothing.com/ca/]
本网站使用jsessionid。
我想在我的代码中得到它(蜘蛛)
谁能指导我如何获得
我的代码中的jsessionid。
目前我只是在浏览器上访问该网站后从浏览器的检查工具中复制粘贴jsessionid。
本站使用JavaScript设置JSESSIONID
。但是,如果您将禁用 JavaScript,并尝试加载页面,您会看到它请求以下 URL:
https://www.dynamiteclothing.com/?postSessionRedirect=https%3A//www.garageclothing.com/ca&noRedirectJavaScript=true
(1)
将您重定向到此 URL:
https://www.garageclothing.com/ca;jsessionid=YOUR_SESSION_ID
(2)
因此您可以执行以下操作:
- 使用 URL
(1)
开始请求
- 在回调中,从URL
(2)
中提取会话ID(将存储在response.url
)
- 使用 cookie 中提取的会话 ID 发出您想要的请求
我正在为这个网站在 Scrapy 中编写爬虫代码
[https://www.garageclothing.com/ca/]
本网站使用jsessionid。 我想在我的代码中得到它(蜘蛛) 谁能指导我如何获得 我的代码中的jsessionid。 目前我只是在浏览器上访问该网站后从浏览器的检查工具中复制粘贴jsessionid。
本站使用JavaScript设置JSESSIONID
。但是,如果您将禁用 JavaScript,并尝试加载页面,您会看到它请求以下 URL:
https://www.dynamiteclothing.com/?postSessionRedirect=https%3A//www.garageclothing.com/ca&noRedirectJavaScript=true
(1)
将您重定向到此 URL:
https://www.garageclothing.com/ca;jsessionid=YOUR_SESSION_ID
(2)
因此您可以执行以下操作:
- 使用 URL
(1)
开始请求
- 在回调中,从URL
(2)
中提取会话ID(将存储在response.url
) - 使用 cookie 中提取的会话 ID 发出您想要的请求