用于抓取动态站点的最快的编程语言

The fastest programming language for scraping dynamic sites

我在 Python 上编写站点解析器(我从页面中提取数据,对其进行处理,执行由 js 生成的各种算术运算)。我尽可能使用 selenium + pure lxml。但我对表演不满意。

我想写在另一个 programming language 上,速度更快。只是我不知道该选择哪一个。

有人写 Scala 什么都做,有人说 C++(甚至 C),有人写 Assembler,有人写 RustPerl, PHP... 总的来说,我很困惑...什么可以更快地解析 dynamic site

假设被抓取的页面不在您的本地网络中(甚至可能在本地网络中,这取决于它们的生成方式),您的抓取中最慢的部分可能会等待页面被发送通过网络。

由于您正在抓取多个页面,因此加快该过程的最简单方法是并行抓取多个页面,这样就无需等待一个页面完成后再开始下载下一个页面。

任何允许并行处理的语言都可以,但即使该语言不支持它,您也可以 运行 使用标准 shell.[=10= 并行处理多个抓取过程]