在 C++ 中使用 curl 获取一段时间后发生变化的页面
Using curl in C++ to get page that changes after sometime
我试图用 C++ 制作一个网络爬虫(我知道我可以使用其他语言,但我只是想学习)。有一个网页我正在尝试获取 html 代码,但该页面在一两秒后更改为我想要的 links。如何让程序等到 return 到 html?
编辑:我想进行一次 curl 调用,然后等待一段时间,然后在一段时间后对同一网页进行另一个 curl 调用。 (不要再次打开 link,因为它会给出相同的页面)
您有三个选择:
- 调查站点并找出 javascript 代码如何更改页面,然后在 C++ 中复制它(通过 hard-coding a URL 或解析页面的部分内容) ,
- 嵌入理解 JavaScript 的完整浏览器引擎并在更改后单击 link,或者
- 放弃 C++ 并使用专用的抓取工具,如 CasperJS 或 Scrapy 或 wring 或 ...
我会检查页面,看看您是否可以使选项 1 起作用,但选项 3 是迄今为止最简单的方法。
我试图用 C++ 制作一个网络爬虫(我知道我可以使用其他语言,但我只是想学习)。有一个网页我正在尝试获取 html 代码,但该页面在一两秒后更改为我想要的 links。如何让程序等到 return 到 html?
编辑:我想进行一次 curl 调用,然后等待一段时间,然后在一段时间后对同一网页进行另一个 curl 调用。 (不要再次打开 link,因为它会给出相同的页面)
您有三个选择:
- 调查站点并找出 javascript 代码如何更改页面,然后在 C++ 中复制它(通过 hard-coding a URL 或解析页面的部分内容) ,
- 嵌入理解 JavaScript 的完整浏览器引擎并在更改后单击 link,或者
- 放弃 C++ 并使用专用的抓取工具,如 CasperJS 或 Scrapy 或 wring 或 ...
我会检查页面,看看您是否可以使选项 1 起作用,但选项 3 是迄今为止最简单的方法。