文件系统数据源的 DataImportHandler DIH
DataImportHandler DIH for FileSystem DataSource
我有一个文件系统数据源,我已经为它创建了一个数据配置 运行 DIH
数据配置是
<数据配置>
<数据源类型="FileDataSource" />
<文件>
实体>
文档>
数据配置>
当我 运行 DIH 时,它给出
索引完成。 Added/Updated: 0 个文档。已删除 0 个文档。
请求:0,获取:35924,跳过:0,处理:0
知道为什么它不处理任何文档吗?
您的配置中没有根实体;你只有一个实体,它有 rootEntity="false",所以没有从它创建文档。
您还需要定义一些
"field" 实体内的行,用于将文件信息映射到架构中的字段;这个问题 indexing all documents in doc folder in to solr FileListEntityProcessor 做的事情与您需要的类似。
谢谢,我搞定了,下面是需要的dataconfig
<?xml version="1.0" encoding="UTF-8"?>
<dataConfig>
<dataSource type="BinFileDataSource" />
<document>
<entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="null">
<field column="fileAbsolutePath" name="id" />
<entity name="documentImport" processor="TikaEntityProcessor" url="${pdf.fileAbsolutePath}" format="text">
<field column="text" name="text"/>
</entity>
</entity>
</document>
</dataConfig>
我有一个文件系统数据源,我已经为它创建了一个数据配置 运行 DIH 数据配置是
<数据配置> <数据源类型="FileDataSource" /> <文件>实体> 文档> 数据配置>
当我 运行 DIH 时,它给出
索引完成。 Added/Updated: 0 个文档。已删除 0 个文档。
请求:0,获取:35924,跳过:0,处理:0
知道为什么它不处理任何文档吗?
您的配置中没有根实体;你只有一个实体,它有 rootEntity="false",所以没有从它创建文档。
您还需要定义一些 "field" 实体内的行,用于将文件信息映射到架构中的字段;这个问题 indexing all documents in doc folder in to solr FileListEntityProcessor 做的事情与您需要的类似。
谢谢,我搞定了,下面是需要的dataconfig
<?xml version="1.0" encoding="UTF-8"?> <dataConfig> <dataSource type="BinFileDataSource" /> <document> <entity name="pdf" processor="FileListEntityProcessor" baseDir="/path/to/my/pdf" fileName=".*pdf" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="null"> <field column="fileAbsolutePath" name="id" /> <entity name="documentImport" processor="TikaEntityProcessor" url="${pdf.fileAbsolutePath}" format="text"> <field column="text" name="text"/> </entity> </entity> </document> </dataConfig>