与 Elasticsearch 协同工作的 Nutch 以外的爬虫

Crawlers other than Nutch that work with Elasticsearch

我在设置数据系统时试图获得一些建议。我想建立一个网络抓取系统。它可能会定期抓取一些 hundred/thousand 个网站。

我知道 Nutch 并使用过 Nutch,但是我想知道是否有其他人知道比 Nutch 更好的爬虫。

我还使用 Elasticsearch 作为索引器,很难让 Nutch 与新版本的 ES 一起工作。

您可以看一下 StormCrawler is based on Apache Storm and is not only a full-featured crawler but also has a focus on Near Real Time crawling. ES is usually very updated, at the moment of this writing, supports ES v6.1.1 (https://github.com/DigitalPebble/storm-crawler/blob/master/external/elasticsearch/pom.xml#L20),这对您有用。请记住,这是与 Nutch 不同的方法和技术,尽管它使用了 Apache Nutch 背后的一些想法。

此外,在 https://github.com/BruceDone/awesome-crawler 中,您可以找到用多种不同语言编写的大量爬虫的列表。