将 Solr 用于 PDF 文件
Use Solr with PDF files
我想对 PDF 文件使用 Solr,但我不知道如何配置 solrconfig.xml 和 schema.xml。我应该在那些文件中写什么?目的是使用同义词或拼写检查器进行全文搜索。(我在 Windows 上使用 Solr,将来我将使用 API SolrNet)。谢谢!
您将使用 Tika 从 PDF 文件中提取文本。
Tika 从 PDF 文档中提取元数据,用于 title
,
author
,依此类推。因此,您的架构应包含以下字段
title
和 author
。
Tika将PDF文档的正文提取到content
字段,所以
您的架构还应包含一个 content
字段。
配置 Tika 后,您向 Solr 发出 HTTP POST,指定您希望索引的 PDF 文件:
curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"
如果您需要将 Tika 生成的字段(title
、author
、content
)映射到您的 Solr 索引中的不同字段,您可以使用 fmap
特征:
fmap.content=text
会将 Tika 提取的 content
字段映射到 Solr 的 text
字段。
我想对 PDF 文件使用 Solr,但我不知道如何配置 solrconfig.xml 和 schema.xml。我应该在那些文件中写什么?目的是使用同义词或拼写检查器进行全文搜索。(我在 Windows 上使用 Solr,将来我将使用 API SolrNet)。谢谢!
您将使用 Tika 从 PDF 文件中提取文本。
Tika 从 PDF 文档中提取元数据,用于
title
,author
,依此类推。因此,您的架构应包含以下字段title
和author
。Tika将PDF文档的正文提取到
content
字段,所以 您的架构还应包含一个content
字段。
配置 Tika 后,您向 Solr 发出 HTTP POST,指定您希望索引的 PDF 文件:
curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true' -F "myfile=@example/exampledocs/solr-word.pdf"
如果您需要将 Tika 生成的字段(title
、author
、content
)映射到您的 Solr 索引中的不同字段,您可以使用 fmap
特征:
fmap.content=text
会将 Tika 提取的 content
字段映射到 Solr 的 text
字段。