使用 StormCrawler 和 Elasticsearch 归档旧网站
Archiving old websites with StormCrawler and Elasticsearch
当storm爬虫重新访问之前已经抓取过的网站时,会更新elasticsearch索引中对应的文档。即旧内容被新内容覆盖
是否有任何 stormcrawler 功能允许我们保留某些字段的旧版本并用时间戳对其进行注释?
我们研究了 elasticsearch 翻转 api 并摄取管道。摄取管道看起来很有希望在更新操作中修改 elasticsearch 文档。有什么方法可以通过 stormcrawler 配置将管道参数(即?pipeline=xxx)附加到相关的 elasticsearch 请求?
一种选择是使用 URL + 时间戳作为键并分别存储文档的每个版本。不过,您必须在搜索时进行重复数据删除。这需要对代码进行微小的更改。
我们目前无法通过配置附加参数,但它应该是可行的。我从未使用过 ES 中的管道,它们不能配置为在特定索引上默认使用吗?
当storm爬虫重新访问之前已经抓取过的网站时,会更新elasticsearch索引中对应的文档。即旧内容被新内容覆盖
是否有任何 stormcrawler 功能允许我们保留某些字段的旧版本并用时间戳对其进行注释?
我们研究了 elasticsearch 翻转 api 并摄取管道。摄取管道看起来很有希望在更新操作中修改 elasticsearch 文档。有什么方法可以通过 stormcrawler 配置将管道参数(即?pipeline=xxx)附加到相关的 elasticsearch 请求?
一种选择是使用 URL + 时间戳作为键并分别存储文档的每个版本。不过,您必须在搜索时进行重复数据删除。这需要对代码进行微小的更改。
我们目前无法通过配置附加参数,但它应该是可行的。我从未使用过 ES 中的管道,它们不能配置为在特定索引上默认使用吗?