网络抓取时如何获得 HTML 代码而不是源代码？

Question

目前我正在使用 phantom JS 和 returning 页面。内容，但是此 return 不是当前页面的源代码 HTML。

加载网站，然后加载产品列表。产品列表不是源代码的一部分，并且在请求页面时未 returned。内容。显然这是 Phantom JS 的常见问题。

有没有人对其他 methods/packages 有什么建议 return 当前页面 HTML。

我的项目是 C# Windows 表单项目。

非常感谢

Answer 1

WebClient WC = new WebClient();
string JSON = WC.DownloadString(url);
Object onject = JsonConvert.DeserializeObject<List<JJs.ITEMS>>(JSON);

最后转到网络上 XHR 选项卡中记录的请求 ant 它 returns 网页用于生成产品列表的数据的 JSON 文件

Answer 2

尝试使用 selenium webdriver 并使用 WebDriverWait 来捕获加载的产品列表，这是最简单的选择...另一种选择尝试对 HTTP 请求进行逆向工程，看看是否可以模拟 JSON 中的文件请求背景.

How do you get HTML code not the source code when web scraping?