Sitecore Lucene - 重复条目

Sitecore Lucene - duplicate entries

对于名为 "some page" 的项目,Sitecore 会自动生成 URL“/some-page”,但也可以通过“/some page”访问该页面。 URL 不同,但指向相同的 Sitecore 项目。

内容作者可以在其他页面的链接中同时使用 URL,对于当前问题,假设我们无法更改他们的行为。

如果同时使用两个链接,Lucene 会将这两个链接都添加到搜索索引中,即同一页面被索引两次。两者具有相同的“_id”值,因此它们被识别为相同的项目。

我们如何确保 Lucene 不添加重复的条目?我们如何配置它以永不存储相同“_id”值的重复条目?

Sitecore 应用程序在索引项目时不查看 url(无论是 Lucene 还是 Solr)。

Sitecore 检查 ID 个项目,LanguageVersionDatabase,并在此基础上唯一确定 Lucene 文档。

如果您打开索引,例如使用 Luke ,您可以在所有文档中看到 _uniqueid 字段,看起来像 sitecore://web/{d376c64b-866d-4725-8606-d0462b6ef28a}?lang=en&ver=1.

项目的ID(存储在Lucene文档的_group中)不用于Lucene文档的唯一标识。

并且就 link 访问您的页面而言,假设您谈论的是 Sitecore 内部 links,作者仅 select 目标项目并且是 Sitecore 生成 "user-friendly" 版本的 link。因此,您不应看到同一页面的不同网址。