Solr - 使用 PDF 文件的 FileListEntityProcessor 实现增量导入

Solr - Achieve Delta-Import with the FileListEntityProcessor for PDF Files

Solr 版本:: 6.6.1

我正在使用 solr 来索引 PDF 文件,它工作正常 预期的。现在我需要执行增量导入选项 PDF文件。最近添加到文件夹中的文件只能在数据导入处理程序操作期间进行处理。

我无法找到实施增量导入的示例 FileListEntityProcessor.

请推荐。

data-config.xml 文件看起来像这样。

<dataConfig>
  <dataSource type="BinFileDataSource"/>
  <document>
    <entity name="K1FileEntity" processor="FileListEntityProcessor"
dataSource="null"
            recursive = "true"
            baseDir="\CLD02\RemoteDepot"
            fileName=".*pdf" rootEntity="false">

            <field column="file" name="id"/>
            <!--<field column="fileAbsolutePath" name="path" />
            <field column="fileSize" name="size" />-->
            <field column="fileLastModified" name="lastmodified" />

              <entity name="pdf" processor="TikaEntityProcessor"
onError="skip"
                      url="${K1FileEntity.fileAbsolutePath}" format="text">

                <field column="title" name="title" meta="true"/>
                <field column="dc:format" name="format" meta="true"/>
                <field column="text" name="text"/>

              </entity>
    </entity>
  </document>
</dataConfig> 

如前所述in the docs

delta-import

For incremental imports and change detection. Only the SqlEntityProcessor supports delta imports.

因此您需要:

  • 转向使用一些 java 代码(使用 Solrj)建立索引并滚动您自己的增量导入基础设施
  • 或为 FileListEntityProcessor 实现所有增量内容(并希望将其推入 Solr),您可以使用 SqlEntityProcessor 代码作为指导。