Apache Nutch 特权
Apache Nutch perks
我遇到了这个非常大的工具,然后深入研究了一些 不太漂亮的 文档 and/or 购买了 ebook :我只是想问问:
Apache Nutch 如何处理 javascript 繁重的网站,以及它如何获取页面?
我的意思是:它如何克服 IP 禁令?
Javascript - 有一个基于 Selenium 的协议实现,这对 JS 站点有帮助
Nutch 基于 Hadoop,因此是批处理驱动的。如果您正在寻找基于流的爬网框架,那么 StormCrawler 将是一个更好的工具。
我遇到了这个非常大的工具,然后深入研究了一些 不太漂亮的 文档 and/or 购买了 ebook :我只是想问问:
Apache Nutch 如何处理 javascript 繁重的网站,以及它如何获取页面? 我的意思是:它如何克服 IP 禁令?
Javascript - 有一个基于 Selenium 的协议实现,这对 JS 站点有帮助
Nutch 基于 Hadoop,因此是批处理驱动的。如果您正在寻找基于流的爬网框架,那么 StormCrawler 将是一个更好的工具。