SOLR - TikaEntityProcessor - BLOB 导入

SOLR - TikaEntityProcessor - BLOB Import

我在弄清楚如何将 blob 数据从 SQL 服务器数据库导入 SOLR 时遇到了问题。 这也与 NAV 挂钩。我已经设法从 NAV 中的 table 中获取数据,但是为了搜索目的,我需要 SOLR 中的这些数据。

这是我当前的 dataConfig 文件。

<dataConfig>
    <dataSource name="dastream" type="FieldStreamDataSource" />
    <dataSource name="db" driver="com.microsoft.sqlserver.jdbc.SQLServerDriver" url="jdbc:sqlserver://localhost;databaseName=TestingDB" user="sa" password="*******" />
    <document name="items">
        <entity name="item"  query="select [No_], [Desc_ English] as desceng from [Foo$Item]" dataSource="db">
            <field column="No_" name="id" />

            <entity processor="TikaEntityProcessor" url="desceng" dataField="item.desceng" name="blob" dataSource="dastream" format="text" >
                <field column="text" name="desceng"  />
            </entity>
        </entity>

    </document>

</dataConfig>

我不断收到的错误是:


完全导入 failed:java.lang.RuntimeException: java.lang.RuntimeException: org.apache.solr.handler.dataimport.DataImportHandlerException: java.lang.RuntimeException: 不支持输入:classjava.lang.String


我不确定我错过了什么。

也许这是因为 Nav 以他自己的方式存储 blob。看到这个 question。有一个示例如何使用 python.

提取数据