当之前的 "FETCHED" url 在 Web 服务器端被删除并且 StormCrawler 再次访问它时会发生什么?
What happens when a previously "FETCHED" url is removed on the web server side and StormCrawler goes to it again?
我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理以前 "FETCHED" 的 url 站点,当 SC 下次到达它时它已被删除并生成重定向或 404。会发生什么到来自旧版本页面的内容,在 "Index" index?
我知道 "Status" 索引中的 url 可能会更改为 "REDIRECTION" 或 "FETCH ERROR" 或其他内容,但是内容本身呢?删除了吗?剩下了吗?我想弄清楚 SC 在这里如何反应,以及我是否必须清理 "Index" 索引中的这些孤立文档。
我希望 SC 删除不再存在的内容,但我想我会要求确定。
正如您所指出的,缺少 URL 将获得 FETCH_ERROR 状态,在重试多次后(参数 max.fetch.errors - 默认 3) 将变为 ERROR 状态。
如果您将 DeletionBolt 连接到状态更新程序,内容将被删除,请参阅 example topology。
我们有很多网站正在更新、添加和删除。我很好奇 Stormcrawler 如何处理以前 "FETCHED" 的 url 站点,当 SC 下次到达它时它已被删除并生成重定向或 404。会发生什么到来自旧版本页面的内容,在 "Index" index?
我知道 "Status" 索引中的 url 可能会更改为 "REDIRECTION" 或 "FETCH ERROR" 或其他内容,但是内容本身呢?删除了吗?剩下了吗?我想弄清楚 SC 在这里如何反应,以及我是否必须清理 "Index" 索引中的这些孤立文档。
我希望 SC 删除不再存在的内容,但我想我会要求确定。
正如您所指出的,缺少 URL 将获得 FETCH_ERROR 状态,在重试多次后(参数 max.fetch.errors - 默认 3) 将变为 ERROR 状态。
如果您将 DeletionBolt 连接到状态更新程序,内容将被删除,请参阅 example topology。