将 Solr 用于 PDF 文件

Use Solr with PDF files

我想对 PDF 文件使用 Solr,但我不知道如何配置 solrconfig.xml 和 schema.xml。我应该在那些文件中写什么?目的是使用同义词或拼写检查器进行全文搜索。(我在 Windows 上使用 Solr,将来我将使用 API SolrNet)。谢谢!

您将使用 Tika 从 PDF 文件中提取文本。

  • Tika 从 PDF 文档中提取元数据,用于 titleauthor,依此类推。因此,您的架构应包含以下字段 titleauthor

  • Tika将PDF文档的正文提取到content字段,所以 您的架构还应包含一个 content 字段。

配置 Tika 后,您向 Solr 发出 HTTP POST,指定您希望索引的 PDF 文件:

curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"

如果您需要将 Tika 生成的字段(titleauthorcontent)映射到您的 Solr 索引中的不同字段,您可以使用 fmap特征:

fmap.content=text 会将 Tika 提取的 content 字段映射到 Solr 的 text 字段。