是否可以使用 Solr 索引外部文件?

Is it possible to index external files with Solr?

最近,google 自定义搜索已关闭并在 2018 年 4 月结束他们的服务(不要引用我的话)。

鉴于此,我一直在尝试将我们的 Drupal 站点的搜索移动到一个新的搜索引擎,即 Apache Solr。

我们的 drupal 站点托管了大量文件,从 PDF 到图像再到 JSON 和 XML 文件。 我在索引这些文件时没有遇到任何问题,因为它们本地存储在托管 Drupal 站点的同一台机器上,但我们有一堆外部文件,我过去使用 GCSE 搜索这些文件没有问题。

我希望能够索引外部文件并能够使用 Solr search/query 它们,就像我能够使用 GCSE 搜索它们一样。

这可能吗?我有点菜鸟,到目前为止一直在按照分步指南进行操作,以便在我们的网站上搜索 Solr 和 运行。

如果有人知道如何使用 Apache Solr 搜索和查询外部文件,我将不胜感激。

是的,可以在 Apache Solr 中索引不同的外部文件。有很多教程,如何做到这一点。

我会推荐你​​看一下这个reference guide. Basically most of the stuff under Indexing and Basic Data Operations, with paying attention to the Uploading Data with Index Handlers, which will help you to index XML/XSLT, JSON and CSV data and also take a look at Uploading Data with Solr Cell using Apache Tika,它会解释如何索引 PPT、XLS、PDF 和其他更复杂的格式。

在查询方面 - 遵循 Searching 中的一些初始指南,当您遇到问题时 - 请随时在这里提出其他问题。