为什么 jsoup 比 selenium 或 curl 快这么多？

Why is jsoup so much faster than selenium or curl?

在过去的十年里，我写过很多网络爬虫。最初是在 C++ 中，然后是 C#，但最近在 java 和 python 中广泛使用。这些天来，关于我是否在 java 或 python 中编写网络爬虫只是掷硬币。然而，在过去的 3 或 4 年里，我注意到 jsoup 在某种程度上比 pycurl、pyrequest 和 selenium 快得多。 jsoup 的秘密是什么？为什么它在速度方面击败了所有其他方法？

我不知道 pycurl 和 pyrequest，但我可以告诉你 JSoup 和 Selenium。最大的区别在于 selenium webdriver 驱动一个带有实时 DOM 的真实浏览器，在执行 selenium 的每个动作之前需要检查相关元素是否仍处于相同状态。这种与真实浏览器的交互自然比 JSoup 所做的要复杂得多：JSoup 是一个简单的 HTML 解析器。因此它解析 HTML 文档（或 XML）一次并创建内存表示。只有 JSoup 命令会改变 DOM，因此 JSoup 可以非常有效地处理这些内容。

你用这种方法付出的代价是 JSoup 自然不会解释或运行 Javascript。所以依赖异步数据加载的网站会要求你深入理解它并直接加载内容。在 selenium 中，您可以让浏览器完成所有工作并“收获”渲染结果 HTML.