Crawler4j、Jsoup 和 JavaScript:提取使用 JavaScript 修改的属性值

Crawler4j, Jsoup and JavaScript: extract attribute values modified with JavaScript

我正在使用 Crawler4j 和 Jsoup 来抓取网站,它适用于 HTML 文本,但有一些重要的内容,默认值硬编码在 CSS 和然后用 JavaScript 动态设置。 例如,我有 我需要宽度值,在 CSS 中硬编码为 10px,但在 JavaScript 中修改为,比方说,5px。

有没有办法不用其他爬虫就可以得到这个值?或者一个简单的选择? 我已经有很多代码,所以如果有可能用 Crawler4j 重写,我不想重写所有代码。

希望我的问题足够清楚,在此先感谢您的帮助!

crawler4jjsoup 都不可能做到这一点。它们都只处理静态 HTML 内容。

在官方 GitHub 存储库上有几个与动态 JavaScript 执行相关的未解决问题:#49, #197 and #220

为了实现您的目标,您需要基于 Selenium, CasperJS and/or PhantomJS 构建一个堆栈,然后可以将其用于高级抓取,包括 JavaScript 执行。