用于抓取动态站点的最快的编程语言
The fastest programming language for scraping dynamic sites
我在 Python
上编写站点解析器(我从页面中提取数据,对其进行处理,执行由 js
生成的各种算术运算)。我尽可能使用 selenium
+ pure lxml
。但我对表演不满意。
我想写在另一个 programming language
上,速度更快。只是我不知道该选择哪一个。
有人写 Scala
什么都做,有人说 C++
(甚至 C
),有人写 Assembler
,有人写 Rust
, Perl
, PHP
... 总的来说,我很困惑...什么可以更快地解析 dynamic site
?
假设被抓取的页面不在您的本地网络中(甚至可能在本地网络中,这取决于它们的生成方式),您的抓取中最慢的部分可能会等待页面被发送通过网络。
由于您正在抓取多个页面,因此加快该过程的最简单方法是并行抓取多个页面,这样就无需等待一个页面完成后再开始下载下一个页面。
任何允许并行处理的语言都可以,但即使该语言不支持它,您也可以 运行 使用标准 shell.[=10= 并行处理多个抓取过程]
我在 Python
上编写站点解析器(我从页面中提取数据,对其进行处理,执行由 js
生成的各种算术运算)。我尽可能使用 selenium
+ pure lxml
。但我对表演不满意。
我想写在另一个 programming language
上,速度更快。只是我不知道该选择哪一个。
有人写 Scala
什么都做,有人说 C++
(甚至 C
),有人写 Assembler
,有人写 Rust
, Perl
, PHP
... 总的来说,我很困惑...什么可以更快地解析 dynamic site
?
假设被抓取的页面不在您的本地网络中(甚至可能在本地网络中,这取决于它们的生成方式),您的抓取中最慢的部分可能会等待页面被发送通过网络。
由于您正在抓取多个页面,因此加快该过程的最简单方法是并行抓取多个页面,这样就无需等待一个页面完成后再开始下载下一个页面。
任何允许并行处理的语言都可以,但即使该语言不支持它,您也可以 运行 使用标准 shell.[=10= 并行处理多个抓取过程]