如何获取网页的html源代码

Question

我正在使用 curl 从某个网站抓取 html 代码。然后他们更改了服务器设置，curl 不再能够获取页面内容并给出错误代码 1020 然后我将脚本更改为使用 elinks.

但他们现在再次使用 cloudflare，并且 elinks 不再有效（仅在该特定网站中）。它给出了相同的错误代码 1020.

是否有任何命令行或选项可以使用其他浏览器（firefox、chromium、google-chrome...）并在终端中获取页面 html？

Answer 1

如果您可以为 Node.js, here is a small example using puppeteer 库编写脚本。它在页面以无头（不可见）方式加载后记录页面源代码Chrome，页面脚本生成动态内容：

import puppeteer from 'puppeteer';

const browser = await puppeteer.launch({ headless: false, defaultViewport: null });

try {
  const [page] = await browser.pages();
  await page.goto('https://example.org/');
  console.log(await page.content());

} catch (err) { console.error(err); } finally { await browser.close(); }

如何获取网页的html源代码

How to get html source code of a web page

browser

curl

web-scraping

elinks