如何构建像 google 一样强大的爬虫?
How to build a powerful crawler like google's?
我想构建一个可以在几分钟内更新数十万个链接的爬虫。
有没有成熟的调度方式?
需要分布式系统吗?
限制性能的最大障碍是什么?
谢谢
除非您愿意牺牲速度,否则所需的处理量和内存将需要分布式处理。请记住,您将处理数十亿个链接以及数 TB 的文本和图像
您需要一个分布式爬虫,但不要重新发明轮子,使用 Apache Nutch。它正是为此目的而构建的,成熟稳定,被广泛的社区用来处理大规模爬网。
对于 Python 你可以使用 Scrapinghub 的 Frontera
https://github.com/scrapinghub/frontera
他们就是制作 Scrapy 的人。
还有 Apache Nutch,这是一个更古老的项目。
http://nutch.apache.org/
我想构建一个可以在几分钟内更新数十万个链接的爬虫。 有没有成熟的调度方式? 需要分布式系统吗? 限制性能的最大障碍是什么? 谢谢
除非您愿意牺牲速度,否则所需的处理量和内存将需要分布式处理。请记住,您将处理数十亿个链接以及数 TB 的文本和图像
您需要一个分布式爬虫,但不要重新发明轮子,使用 Apache Nutch。它正是为此目的而构建的,成熟稳定,被广泛的社区用来处理大规模爬网。
对于 Python 你可以使用 Scrapinghub 的 Frontera
https://github.com/scrapinghub/frontera
他们就是制作 Scrapy 的人。
还有 Apache Nutch,这是一个更古老的项目。 http://nutch.apache.org/