在 C++ 中使用 curl 获取一段时间后发生变化的页面

Using curl in C++ to get page that changes after sometime

我试图用 C++ 制作一个网络爬虫(我知道我可以使用其他语言,但我只是想学习)。有一个网页我正在尝试获取 html 代码,但该页面在一两秒后更改为我想要的 links。如何让程序等到 return 到 html?

编辑:我想进行一次 curl 调用,然后等待一段时间,然后在一段时间后对同一网页进行另一个 curl 调用。 (不要再次打开 link,因为它会给出相同的页面)

您有三个选择:

  1. 调查站点并找出 javascript 代码如何更改页面,然后在 C++ 中复制它(通过 hard-coding a URL 或解析页面的部分内容) ,
  2. 嵌入理解 JavaScript 的完整浏览器引擎并在更改后单击 link,或者
  3. 放弃 C++ 并使用专用的抓取工具,如 CasperJS 或 Scrapy 或 wring 或 ...

我会检查页面,看看您是否可以使选项 1 起作用,但选项 3 是迄今为止最简单的方法。