如何打印与 solr 7.6.0 中的搜索查询匹配的 pdf 的实际内容
How to print the actual content of a pdf which matches the search query in solr 7.6.0
我使用的solr版本是7.6.0(Schema-less模式)。我尝试使用默认提供的 Post 实用程序 jar 来索引一些 PDF 文档。现在,当我进行查询时,包含查询字符串的文件的详细信息会正确显示。但是我看不到任何显示文件实际内容的字段。我的 Solrconfig.xml 的请求处理程序如下
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="uprefix">ignored_</str>
<str name="fmap.a">ignored_</str>
<str name="fmap.div">ignored_</str>
<str name="fmap.content">text</str>
<str name="captureAttr">true</str>
<str name="lowernames">true</str>
<bool name="ignoreTikaException">true</bool>
</lst>
</requestHandler>
发布用于索引的 pdf 文件时,自动生成的 managed-schema.xml 文件不包含任何 "Content" 字段。此外,在查询时,仅显示文件的元数据,如 id、日期、标题、content-types、stream-size、作者等,但不会突出显示实际内容信息。请澄清。 “http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json”
如果您能够执行搜索并且它是突出显示问题,那么还有其他参数可以考虑突出显示。
hl.fl
指定要突出显示的字段列表。接受以逗号或 space 分隔的字段列表,Solr 应为其生成突出显示的片段。
hl.fragsize
指定要突出显示的片段的大致大小(以字符为单位)。 0 表示不考虑分段,应使用整个字段值。默认为 100。
下面是 link,其中包含所有参数的列表。您需要检查哪一个适用于您的情况。
这是帮助解决我的问题的解决方案:
模式中的“text”字段默认带有stored="false"。此字段必须设置为真才能显示内容信息。
参考Link:Solr query in a pdf file, is not returning highlighting content
我使用的solr版本是7.6.0(Schema-less模式)。我尝试使用默认提供的 Post 实用程序 jar 来索引一些 PDF 文档。现在,当我进行查询时,包含查询字符串的文件的详细信息会正确显示。但是我看不到任何显示文件实际内容的字段。我的 Solrconfig.xml 的请求处理程序如下
<requestHandler name="/update/extract" startup="lazy" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="uprefix">ignored_</str>
<str name="fmap.a">ignored_</str>
<str name="fmap.div">ignored_</str>
<str name="fmap.content">text</str>
<str name="captureAttr">true</str>
<str name="lowernames">true</str>
<bool name="ignoreTikaException">true</bool>
</lst>
</requestHandler>
发布用于索引的 pdf 文件时,自动生成的 managed-schema.xml 文件不包含任何 "Content" 字段。此外,在查询时,仅显示文件的元数据,如 id、日期、标题、content-types、stream-size、作者等,但不会突出显示实际内容信息。请澄清。 “http://localhost:8983/solr/TestCore6/select?hl=on&q=mars&wt=json”
如果您能够执行搜索并且它是突出显示问题,那么还有其他参数可以考虑突出显示。
hl.fl
指定要突出显示的字段列表。接受以逗号或 space 分隔的字段列表,Solr 应为其生成突出显示的片段。
hl.fragsize
指定要突出显示的片段的大致大小(以字符为单位)。 0 表示不考虑分段,应使用整个字段值。默认为 100。
下面是 link,其中包含所有参数的列表。您需要检查哪一个适用于您的情况。
这是帮助解决我的问题的解决方案:
模式中的“text”字段默认带有stored="false"。此字段必须设置为真才能显示内容信息。
参考Link:Solr query in a pdf file, is not returning highlighting content