爬虫在 Coveo 重建索引中的作用是什么

What is role of crawler in Coveo rebuild index

当我们在 Sitecore 中为 Coveo 执行索引重建时,Coveo 爬虫如何在内部工作并将项目发布到 Coveo Cloud?

爬虫是一个 Coveo 云模块,它扫描项目以索引并提取其内容。如果某个项目是安全的,爬网程序还会提取其权限并将其保存为项目元数据。

Coveo for Sitecore 默认爬虫配置在 Coveo.SearchProvider.config 中定义,默认情况下,Coveo for Sitecore 相应地索引 /sitecore/content/sitecore/media library/Files 下的所有内容和媒体项目。您可以通过更改索引的爬行根来修补 Coveo.SearchProvider.Custom.config 中的这些配置,以防止在特定索引中索引不需要的项目 and/or 添加新的爬行根。

Coveo for Sitecore 利用 Sitecore 索引更新策略自动索引 Sitecore 项目。 master 数据库中创建、删除和修改的项目会在这些事件发生时编入索引。在 web 数据库中,已发布的项目在发布操作结束时编制索引 (OnPublishEndAsync)。

在搜索索引上配置的爬虫的帮助下,Sitecore 迭代一组项目并使用搜索提供程序框架将它们传递到搜索索引。在编制索引期间,每个 Sitecore 项目都被转换为 Coveo 项目并提取其文本。

重建是抓取一组文档并将它们推入索引。在此过程结束时,搜索索引将仅包含已爬网的文档。由于 Coveo Cloud 是一项在线服务,因此必须上传项目才能编入索引。