未在 sitecore lucene 搜索索引中编制索引的组件
Components not indexed in sitecore lucene search indexes
我已经在配置中配置了 lucene 搜索索引并使用 lukeall 工具测试了索引它搜索定义模板的所有字段但是页面上的内容正在使用另一个外部组件,这不是已搜索,但页面字段中的数据是可搜索的。
有什么方法可以像 html 搜索那样搜索它,这样页面上的所有数据都可以被索引。
谢谢大家。
这是一个常见的要求。
此截屏视频概述了爬虫循环遍历每个页面组件的方法(大约 38 分钟)。
http://www.techphoria414.com/Blog/2012/May/Sitecore_Page_Editor_Unleashed
上面的例子使用了旧的高级数据库爬虫,但原理是正确的。
另一种常见的方法是在您的索引中创建一个计算字段,这会导致应用程序请求页面,因此它 HTML 可以被抓取。
https://github.com/hermanussen/sitecore-html-crawler
我更喜欢第二个选项,因为它更准确
或者,如果您希望将抓取的内容完全分开,您可以选择 https://github.com/efocus-nl/sitecorewebsearch
它还为您提供了一些额外的选项,例如跳过页面的某些部分(例如菜单、页脚、页眉)
我已经在配置中配置了 lucene 搜索索引并使用 lukeall 工具测试了索引它搜索定义模板的所有字段但是页面上的内容正在使用另一个外部组件,这不是已搜索,但页面字段中的数据是可搜索的。 有什么方法可以像 html 搜索那样搜索它,这样页面上的所有数据都可以被索引。
谢谢大家。
这是一个常见的要求。
此截屏视频概述了爬虫循环遍历每个页面组件的方法(大约 38 分钟)。
http://www.techphoria414.com/Blog/2012/May/Sitecore_Page_Editor_Unleashed
上面的例子使用了旧的高级数据库爬虫,但原理是正确的。
另一种常见的方法是在您的索引中创建一个计算字段,这会导致应用程序请求页面,因此它 HTML 可以被抓取。
https://github.com/hermanussen/sitecore-html-crawler
我更喜欢第二个选项,因为它更准确
或者,如果您希望将抓取的内容完全分开,您可以选择 https://github.com/efocus-nl/sitecorewebsearch
它还为您提供了一些额外的选项,例如跳过页面的某些部分(例如菜单、页脚、页眉)