Abot 网络爬虫性能

Abot Web Crawler Performance

我构建了一个 robots.txt 抓取工具,它可以从机器人中提取 url,然后在页面完成后通过一些 post 处理加载页面。这一切发生得非常快,我每秒可以从 5 页中提取信息。

如果网站没有 robots.txt,我会改用 Abot Web Crawler。问题是 Abot 比直接 robots.txt 爬虫要慢得多。似乎当 Abot 访问包含大量 link 的页面时,它会非常缓慢地安排每个 link。有些页面需要 20 多秒才能全部排队,运行 post 过程如上所述。

我使用配置为不抓取外部页面的 PoliteWebCrawler。我应该同时抓取多个网站还是有其他更快的 Abot 解决方案?

谢谢!

您正在抓取的网站是否可能无法处理大量并发请求?一个快速测试是打开浏览器并在 Abot 抓取网站时开始点击网站。如果浏览器速度明显变慢,则服务器显示负载迹象。

如果这是问题所在,您需要通过配置设置来减慢抓取速度。

如果不是,您能否提供 url 抓取速度缓慢的网站或网页? Abot 的完整配置也会有所帮助。

为 Abot 添加了一个补丁来修复此类问题。应该在 nuget 版本 1.5.1.42 中可用。有关详细信息,请参阅 issue #134。你能证实这解决了你的问题吗?