将 Solr 用于 PDF 文件

Use Solr with PDF files

我想对 PDF 文件使用 Solr，但我不知道如何配置 solrconfig.xml 和 schema.xml。我应该在那些文件中写什么？目的是使用同义词或拼写检查器进行全文搜索。（我在 Windows 上使用 Solr，将来我将使用 API SolrNet）。谢谢！

您将使用 Tika 从 PDF 文件中提取文本。

Tika 从 PDF 文档中提取元数据，用于 title， author，依此类推。因此，您的架构应包含以下字段 title 和 author。
Tika将PDF文档的正文提取到content字段，所以您的架构还应包含一个 content 字段。

配置 Tika 后，您向 Solr 发出 HTTP POST，指定您希望索引的 PDF 文件：

curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"

如果您需要将 Tika 生成的字段（title、author、content）映射到您的 Solr 索引中的不同字段，您可以使用 fmap特征：

fmap.content=text 会将 Tika 提取的 content 字段映射到 Solr 的 text 字段。