StormCrawler 中的重定向是否有任何限制?

Is there any limit on redirects in StormCrawler?

我可以在 ElasticSearch 的状态索引中看到 _redirTo 标签。关于重定向的几个问题如下:

  1. 重定向有什么限制吗?这样它就不会以循环结束 重定向 ?
  2. 有多少次特定抓取的重定向 URL?我可以看到 _redirTo 标签中只有一个重定向,即直接重定向。如果 URL ?
  3. 有两个或三个重定向,则无法计算重定向数

您可以设置种子深度的限制,请参阅 MaxDepth URL filter 但不能直接限制连续重定向的数量。

如您所见,我们仅跟踪给定文档重定向到的 URL。

如果你想控制 redirs 的数量而不考虑与种子的距离,一种方法是扩展或修改 MetadataTransfer 或在协议实现中处理 redirs,缺点是这将不检查目标 URL 是否已经被提取。

更新有一个名为 'redirections.allowed' 的配置元素,其默认值为 true。我刚刚为 SimpleFetcherBolt 推送了一个修复程序,因为它处理不当。