solr与storm爬虫集成Fetch_Error时自动删除抓取记录

Deleting the fetched records automatically when Fetch_Error occurs with solr and storm crawler integration

我集成了 SolrStorm Crawler。在 FETCH_ERROR 状态在经过多次连续尝试后转换为 ERROR 之后,我需要处理从 solr 索引中删除的文档,这目前还没有发生。 我读过 elasticsearch 的案例,我们有 AbstractStatusUpdaterBolt 和 DeletionBolt 来处理这个问题。 我们是否有任何类似的用于 solr 集成的删除螺栓,它实际上与 StatusUpdaterBolt 一起可以从 solr 索引中删除记录? 任何方向都会有所帮助。谢谢

目前,对于 StormCrawler 1.15,我们没有用于 SOLR 的 DeletionBolt。写一个应该不会太难,你可以用ES的那个来举例。将元组发送到删除流的逻辑已由 AbstractStatusUpdater bolt 处理,因此在这方面无事可做。

随意打开一个问题来要求添加这个,或者更好的是,如果可以的话,贡献一个拉取请求。