需要使用 node.js 登录的 Web 抓取网页

Web scraping webpage that requires login using node.js

问题陈述:

我有这个网页,列表中的每个候选人都有 link,其中包含一些我想抓取的信息。

因此,对于所有候选人,我必须单击 link 并手动获取详细信息,这是一项繁琐的任务。

我想自动执行此操作,请帮助我。

候选人名单

我的解决方案:

我认为要自动执行此任务,我应该编写一个脚本来点击每个 link 并抓取数据。

但我想知道如何抓取需要登录的网页。

您看到的网页只能通过登录页面访问。

如果除了这种方法之外还有人有更好的解决方案来完成这项任务 - 请帮忙。

谢谢:)

如果您需要一次抓取数据并存储,您可以使用webscraper.io chrome 扩展名并将数据保存为所需的文件格式。这里的抓取将直接在您的浏览器中完成,因此您可以手动登录一次并开始抓取。

否则,如果您想在服务器中集成抓取过程并将数据提供给您的用户,您可以使用像 axios/request 这样的库来发出 HTTP 请求并使用 cheerio 从 HTML.

你也可以使用 headless chrome node API, Puppeteer.