如何抓取受登录保护的网站或页面?

how to crawl a login protected site or page?

我想抓取需要访问权限才能查看页面的网站。我可以抓取访客页面,但如何抓取登录保护页面? 如果有人分享配置或跳过身份验证机制以使用风暴爬虫爬取页面的步骤,那就太好了。

非常感谢您。

您可以在拓扑配置中设置以下键及其相应的值

http.basicauth.user
http.basicauth.password

参见WIKI page配置