如何使用基于对话框的身份验证来筛选站点?

How to screen scrape a site with dialog based authentication?

我想用Jsoup来筛选网站的抓取内容。但我必须先登录该网站。在浏览到主页时,我会看到一个输入用户名和密码的对话框。由于它不是表单,因此我将 "not authorized" 页面作为 Jsoup 中的响应。我尝试使用 firebug 查找 url,但我猜该对话框是在加载其他页面组件之前出现的。因此,我不知道我需要为用户名和密码字段传递哪些参数,也不知道我需要 post.

的服务

这是一个基于 C# 的网站。我在几个 Sharepoint 网站上看到过这种身份验证机制。 这种登录机制应该如何进行?

听起来该页面正在使用基本身份验证。这发生在任何 HTML 被发送到客户端之前,所以这就是为什么你在 firebug.

中看不到它的原因

您需要在 http-header 中发送用户名和密码,这里的 link 向您展示了如何做到这一点: Jsoup connection with basic access authentication