Solr 索引自定义文件类型

Question

基本上，我是一个 Solr 新手，当我们的 Solr 专家离开公司时，我对此有 0 个经验。我们从客户那里收到一个专有文件。我无权访问生成它的应用程序。

上传到 Solr 时，我们收到以下错误

SOLR Log
solr-cloud.log: {"msg":"2022-01-19 08:10:06.915 ERROR (qtp349420578-3516) [c:<collection> s:shard2 r:core_node5 x:<redacted>] o.a.s.s.HttpSolrCall null:java.lang.RuntimeException: java.lang.NoClassDefFoundError: ucar/nc2/NetcdfFile"}

Our App logging
org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://localhost:8983/solr/<collection>: Expected mime type application/octet-stream but got text/html. <html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<title>Error 500 Server Error</title>
</head>
<body><h2>HTTP ERROR 500</h2>
<p>Problem accessing /solr/<collection>/update/extract. Reason:
<pre>    Server Error</pre></p><h3>Caused by:</h3><pre>java.lang.NoClassDefFoundError: ucar/nc2/NetcdfFile
        at org.apache.tika.parser.hdf.HDFParser.parse(HDFParser.java:88)
        at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)

其他普通文件类型（例如 doc、pdf、zip）有效

我无法打开或编辑文件以查看其中包含哪些字段 index 那么有没有办法能够索引这个？
如果没有，我还能做些什么来处理这种文件类型

TIA

Answer 1

Solr/Tika 正在使用 HDF 解析器解析文件，HDF 解析器又依赖于 NetCDF 解析器 - https://www.unidata.ucar.edu/downloads/netcdf-java/

Solr 索引自定义文件类型

Solr index custom file types

solr