如何使用基于对话框的身份验证来筛选站点?
How to screen scrape a site with dialog based authentication?
我想用Jsoup来筛选网站的抓取内容。但我必须先登录该网站。在浏览到主页时,我会看到一个输入用户名和密码的对话框。由于它不是表单,因此我将 "not authorized" 页面作为 Jsoup 中的响应。我尝试使用 firebug 查找 url,但我猜该对话框是在加载其他页面组件之前出现的。因此,我不知道我需要为用户名和密码字段传递哪些参数,也不知道我需要 post.
的服务
这是一个基于 C# 的网站。我在几个 Sharepoint 网站上看到过这种身份验证机制。
这种登录机制应该如何进行?
听起来该页面正在使用基本身份验证。这发生在任何 HTML 被发送到客户端之前,所以这就是为什么你在 firebug.
中看不到它的原因
您需要在 http-header 中发送用户名和密码,这里的 link 向您展示了如何做到这一点:
Jsoup connection with basic access authentication
我想用Jsoup来筛选网站的抓取内容。但我必须先登录该网站。在浏览到主页时,我会看到一个输入用户名和密码的对话框。由于它不是表单,因此我将 "not authorized" 页面作为 Jsoup 中的响应。我尝试使用 firebug 查找 url,但我猜该对话框是在加载其他页面组件之前出现的。因此,我不知道我需要为用户名和密码字段传递哪些参数,也不知道我需要 post.
的服务这是一个基于 C# 的网站。我在几个 Sharepoint 网站上看到过这种身份验证机制。 这种登录机制应该如何进行?
听起来该页面正在使用基本身份验证。这发生在任何 HTML 被发送到客户端之前,所以这就是为什么你在 firebug.
中看不到它的原因您需要在 http-header 中发送用户名和密码,这里的 link 向您展示了如何做到这一点: Jsoup connection with basic access authentication