需要使用 node.js 登录的 Web 抓取网页
Web scraping webpage that requires login using node.js
问题陈述:
我有这个网页,列表中的每个候选人都有 link,其中包含一些我想抓取的信息。
因此,对于所有候选人,我必须单击 link 并手动获取详细信息,这是一项繁琐的任务。
我想自动执行此操作,请帮助我。
候选人名单
我的解决方案:
我认为要自动执行此任务,我应该编写一个脚本来点击每个 link 并抓取数据。
但我想知道如何抓取需要登录的网页。
您看到的网页只能通过登录页面访问。
如果除了这种方法之外还有人有更好的解决方案来完成这项任务 - 请帮忙。
谢谢:)
如果您需要一次抓取数据并存储,您可以使用webscraper.io chrome 扩展名并将数据保存为所需的文件格式。这里的抓取将直接在您的浏览器中完成,因此您可以手动登录一次并开始抓取。
否则,如果您想在服务器中集成抓取过程并将数据提供给您的用户,您可以使用像 axios/request 这样的库来发出 HTTP 请求并使用 cheerio 从 HTML.
你也可以使用 headless chrome node API, Puppeteer.
问题陈述:
我有这个网页,列表中的每个候选人都有 link,其中包含一些我想抓取的信息。
因此,对于所有候选人,我必须单击 link 并手动获取详细信息,这是一项繁琐的任务。
我想自动执行此操作,请帮助我。
候选人名单
我的解决方案:
我认为要自动执行此任务,我应该编写一个脚本来点击每个 link 并抓取数据。
但我想知道如何抓取需要登录的网页。
您看到的网页只能通过登录页面访问。
如果除了这种方法之外还有人有更好的解决方案来完成这项任务 - 请帮忙。
谢谢:)
如果您需要一次抓取数据并存储,您可以使用webscraper.io chrome 扩展名并将数据保存为所需的文件格式。这里的抓取将直接在您的浏览器中完成,因此您可以手动登录一次并开始抓取。
否则,如果您想在服务器中集成抓取过程并将数据提供给您的用户,您可以使用像 axios/request 这样的库来发出 HTTP 请求并使用 cheerio 从 HTML.
你也可以使用 headless chrome node API, Puppeteer.