使用 StormCrawler 和 Elasticsearch 归档旧网站

Archiving old websites with StormCrawler and Elasticsearch

当storm爬虫重新访问之前已经抓取过的网站时，会更新elasticsearch索引中对应的文档。即旧内容被新内容覆盖

是否有任何 stormcrawler 功能允许我们保留某些字段的旧版本并用时间戳对其进行注释？

我们研究了 elasticsearch 翻转 api 并摄取管道。摄取管道看起来很有希望在更新操作中修改 elasticsearch 文档。有什么方法可以通过 stormcrawler 配置将管道参数（即？pipeline=xxx）附加到相关的 elasticsearch 请求？

一种选择是使用 URL + 时间戳作为键并分别存储文档的每个版本。不过，您必须在搜索时进行重复数据删除。这需要对代码进行微小的更改。

我们目前无法通过配置附加参数，但它应该是可行的。我从未使用过 ES 中的管道，它们不能配置为在特定索引上默认使用吗？