在 StormCrawler 中不跟踪 url.path 有什么影响?
What are the implications of not tracking the url.path in StormCrawler?
我们正在使用 StormCrawler 并将我们的 Status
索引存储在 elasticsearch 中。这个索引变得相当大(将近 30 亿个文档!)所以碎片也很大以备备份等
我正在考虑删除文档中的 url.path
元数据数组元素。 It looks like 我可以用 metadata.track.path
禁用它。
如果我不再对此编制索引并删除我拥有的内容,会有什么影响?
如果您对跟踪如何找到特定的 URL 不感兴趣,那么是的,您可以通过设置 [来节省 space(和一些时间)metadata.track.path 为假。您可以立即执行此操作,任何新文档都不会有相应的字段。
不确定 'delete what I have' 是什么意思 - 您不能只删除一个字段,您必须删除整个文档并重新编制索引。
通常,请确保只为需要的字段编制索引。请参阅 this customised version of the ES index init script,其中 'hostname' 已移出以元数据为前缀的字段以便于搜索。可用选项取决于您使用的 Elasticsearch 版本。
我们正在使用 StormCrawler 并将我们的 Status
索引存储在 elasticsearch 中。这个索引变得相当大(将近 30 亿个文档!)所以碎片也很大以备备份等
我正在考虑删除文档中的 url.path
元数据数组元素。 It looks like 我可以用 metadata.track.path
禁用它。
如果我不再对此编制索引并删除我拥有的内容,会有什么影响?
如果您对跟踪如何找到特定的 URL 不感兴趣,那么是的,您可以通过设置 [来节省 space(和一些时间)metadata.track.path 为假。您可以立即执行此操作,任何新文档都不会有相应的字段。
不确定 'delete what I have' 是什么意思 - 您不能只删除一个字段,您必须删除整个文档并重新编制索引。
通常,请确保只为需要的字段编制索引。请参阅 this customised version of the ES index init script,其中 'hostname' 已移出以元数据为前缀的字段以便于搜索。可用选项取决于您使用的 Elasticsearch 版本。