Solr 近实时搜索:频繁重新索引相同文档的影响

Solr near real time search: impact of reindexing frequently the same documents

我们想在近实时场景中使用 SolR。举例来说,我们想按观看次数过滤/排名我们的结果。

SolR SoftCommit 是为此用例制作的,但是:

在我看来,在 Tlog 中有很多次相同的文档是低效的,并且在合并过程中也可能有问题(文档被标记为删除和添加了 n 次?)

有什么建议/好的做法吗?

您可以使用两件事来支持这种情况:

  1. In place updates:只更新了那个字段,而不是整个文档。查看使用它们所需的条件。
  2. ExternalFileFieldType 您将值保存在外部文件中

如果场景很关键,我会尽可能在真实世界条件下进行测试,并进行评估。