如何忽略图像和其他不必要的文件以降低 Jsoup 中的响应时间

How can I ignore images and other unnecessary files to lower response time in Jsoup

我一直在像这样使用 Jsoup 获取 html 文档:

Jsoup.connect(url).get();

但我注意到 Jsoup 在给我数据之前会等待所有内容加载完毕。 我知道我要查找的数据在 Html 文档中。当查看响应时(通过 google Chrome 网络分析工具),html 文档在第一个 ~100ms 发送,我不想等待额外的 ~1500ms 才能访问到那个数据。

有没有办法让请求跳过不需要的文件或在 Revinge html 文档后停止请求?

任何可以加快数据获取过程的建议都将不胜感激。

你的假设其实是错误的。 Jsoup 只获取您将 url 传递给的一个文档。它不会自动获取任何资源(图像、css、js 文件等)。你可以看看 source code 来证明这一点。如果激活,Jsoup 将仅遵循重定向。

可能服务器延迟响应,因为您发送的请求没有 User-Agent header。您可以使用 Connection.userAgent() 解决此问题并添加例如chrome 用户代理:

Jsoup.connect(url)
        .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
        .get();