Crawler4j、Jsoup 和 JavaScript：提取使用 JavaScript 修改的属性值

Crawler4j, Jsoup and JavaScript: extract attribute values modified with JavaScript

我正在使用 Crawler4j 和 Jsoup 来抓取网站，它适用于 HTML 文本，但有一些重要的内容，默认值硬编码在 CSS 和然后用 JavaScript 动态设置。例如，我有我需要宽度值，在 CSS 中硬编码为 10px，但在 JavaScript 中修改为，比方说，5px。

有没有办法不用其他爬虫就可以得到这个值？或者一个简单的选择？我已经有很多代码，所以如果有可能用 Crawler4j 重写，我不想重写所有代码。

希望我的问题足够清楚，在此先感谢您的帮助！

crawler4j 和 jsoup 都不可能做到这一点。它们都只处理静态 HTML 内容。

在官方 GitHub 存储库上有几个与动态 JavaScript 执行相关的未解决问题：#49, #197 and #220。

为了实现您的目标，您需要基于 Selenium, CasperJS and/or PhantomJS 构建一个堆栈，然后可以将其用于高级抓取，包括 JavaScript 执行。