如何打印与 solr 7.6.0 中的搜索查询匹配的 pdf 的实际内容

Question

我使用的solr版本是7.6.0（Schema-less模式）。我尝试使用默认提供的 Post 实用程序 jar 来索引一些 PDF 文档。现在，当我进行查询时，包含查询字符串的文件的详细信息会正确显示。但是我看不到任何显示文件实际内容的字段。我的 Solrconfig.xml 的请求处理程序如下

<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">
      <str name="uprefix">ignored_</str>
      <str name="fmap.a">ignored_</str>
      <str name="fmap.div">ignored_</str>
      <str name="fmap.content">text</str>
      <str name="captureAttr">true</str>
      <str name="lowernames">true</str>
      <bool name="ignoreTikaException">true</bool>
    </lst>
</requestHandler>

发布用于索引的 pdf 文件时，自动生成的 managed-schema.xml 文件不包含任何 "Content" 字段。此外，在查询时，仅显示文件的元数据，如 id、日期、标题、content-types、stream-size、作者等，但不会突出显示实际内容信息。请澄清。 “http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json”

Answer 1

如果您能够执行搜索并且它是突出显示问题，那么还有其他参数可以考虑突出显示。

hl.fl 指定要突出显示的字段列表。接受以逗号或 space 分隔的字段列表，Solr 应为其生成突出显示的片段。

hl.fragsize 指定要突出显示的片段的大致大小（以字符为单位）。 0 表示不考虑分段，应使用整个字段值。默认为 100。

下面是 link，其中包含所有参数的列表。您需要检查哪一个适用于您的情况。

Highlighting in solr

Answer 2

这是帮助解决我的问题的解决方案：

模式中的“text”字段默认带有stored="false"。此字段必须设置为真才能显示内容信息。

参考Link：Solr query in a pdf file, is not returning highlighting content

如何打印与 solr 7.6.0 中的搜索查询匹配的 pdf 的实际内容

How to print the actual content of a pdf which matches the search query in solr 7.6.0

pdf

post

solr

apache-tika