Crawler4J null, while processing(link) 错误
Crawler4J null, while processing(link) error
我有一个小项目,我正在尝试使用 crawler4j 4.1 抓取几百万个页面(我没有确切的数字估计)。我使用的 BasicCrawler 示例只对它做了一些小改动。
在我开始爬取 Crawler4J 日志后不久显示以下错误不断出现
[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.
我尝试将礼貌政策时间提高到 1000 毫秒,甚至尝试 运行使用单个线程连接爬虫,但同样的事情不断发生。
此外,长时间 运行 crawler4J 似乎随机挂起,每次它冻结时我都必须停止并重新启动它。
知道是什么原因造成的吗? Crawler4J 是否将无法访问的链接重新安排回边界?
谢谢
虽然我不太确定是什么导致了这个错误,但是我尝试跟踪所有已爬网的链接和仍在边界的链接。我可以确认两件事。
- 无法访问的链接将在前沿重新安排,爬虫将尝试再次访问它们。
- 冻结仅发生在超过最大下载大小的页面上。作为转机,我增加了下载大小限制并在要丢弃的列表中添加了一些扩展,这不是最佳解决方案,但它对我有用。
我有一个小项目,我正在尝试使用 crawler4j 4.1 抓取几百万个页面(我没有确切的数字估计)。我使用的 BasicCrawler 示例只对它做了一些小改动。 在我开始爬取 Crawler4J 日志后不久显示以下错误不断出现
[Crawler 1] ERROR edu.uci.ics.crawler4j.crawler.WebCrawler - null, while processing: http://www.somelink.com.
我尝试将礼貌政策时间提高到 1000 毫秒,甚至尝试 运行使用单个线程连接爬虫,但同样的事情不断发生。
此外,长时间 运行 crawler4J 似乎随机挂起,每次它冻结时我都必须停止并重新启动它。
知道是什么原因造成的吗? Crawler4J 是否将无法访问的链接重新安排回边界?
谢谢
虽然我不太确定是什么导致了这个错误,但是我尝试跟踪所有已爬网的链接和仍在边界的链接。我可以确认两件事。
- 无法访问的链接将在前沿重新安排,爬虫将尝试再次访问它们。
- 冻结仅发生在超过最大下载大小的页面上。作为转机,我增加了下载大小限制并在要丢弃的列表中添加了一些扩展,这不是最佳解决方案,但它对我有用。