当之前的 "FETCHED" url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么？

What happens when a previously "FETCHED" url is removed on the web server side and StormCrawler goes to it again?

我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理以前 "FETCHED" 的 url 站点，当 SC 下次到达它时它已被删除并生成重定向或 404。会发生什么到来自旧版本页面的内容，在 "Index" index?

我知道 "Status" 索引中的 url 可能会更改为 "REDIRECTION" 或 "FETCH ERROR" 或其他内容，但是内容本身呢？删除了吗？剩下了吗？我想弄清楚 SC 在这里如何反应，以及我是否必须清理 "Index" 索引中的这些孤立文档。

我希望 SC 删除不再存在的内容，但我想我会要求确定。

正如您所指出的，缺少 URL 将获得 FETCH_ERROR 状态，在重试多次后（参数 max.fetch.errors - 默认 3) 将变为 ERROR 状态。

如果您将 DeletionBolt 连接到状态更新程序，内容将被删除，请参阅 example topology。