Apache solr 可以存储上传到它的实际文件吗?
Can Apache solr stores actual files which are uploaded on it?
这是我第一次使用 Stack Overflow。感谢大家提供宝贵的信息并互相帮助。
我目前正在研究 Apache Solr 7。我需要完成一个 POC,因为我的时间比较少,所以把这个问题放在这里。我在 windows 机器上安装了 SOLR。我创建了核心并使用管理员 UI 的 /update/extract 上传了 PDF 文档。上传后,如果我使用查询按钮从管理员 UI 查询,我可以看到文件的元数据。我想知道我是否也可以获得 PDF 的实际内容。我可以看到在 /data/tlog/tlog000... 下生成了一个 tlog 文件,其中包含原始 PDF 数据,但不是实际文件。
所以问题是,
1.我可以得到PDF内容吗?
2. Solr 是否将实际文件存储在某处?
一个。如果它存储那么它在哪里呢?
b.如果不存储,有没有办法存储文件?
此致,
穆尼什阿罗拉
Solr 不会在任何地方破坏实际文件。
根据您的配置,它可以存储二进制内容。
使用提取请求处理程序 Apache Solr 依赖 Apache Tika[1] 从文档[2] 中提取内容。
所以您可以搜索 return pdf 的内容和许多其他元数据,如果您愿意的话。
[2] https://lucene.apache.org/solr/guide/6_6/uploading-data-with-solr-cell-using-apache-tika.html
这是我第一次使用 Stack Overflow。感谢大家提供宝贵的信息并互相帮助。
我目前正在研究 Apache Solr 7。我需要完成一个 POC,因为我的时间比较少,所以把这个问题放在这里。我在 windows 机器上安装了 SOLR。我创建了核心并使用管理员 UI 的 /update/extract 上传了 PDF 文档。上传后,如果我使用查询按钮从管理员 UI 查询,我可以看到文件的元数据。我想知道我是否也可以获得 PDF 的实际内容。我可以看到在 /data/tlog/tlog000... 下生成了一个 tlog 文件,其中包含原始 PDF 数据,但不是实际文件。
所以问题是, 1.我可以得到PDF内容吗? 2. Solr 是否将实际文件存储在某处? 一个。如果它存储那么它在哪里呢? b.如果不存储,有没有办法存储文件?
此致, 穆尼什阿罗拉
Solr 不会在任何地方破坏实际文件。 根据您的配置,它可以存储二进制内容。 使用提取请求处理程序 Apache Solr 依赖 Apache Tika[1] 从文档[2] 中提取内容。
所以您可以搜索 return pdf 的内容和许多其他元数据,如果您愿意的话。
[2] https://lucene.apache.org/solr/guide/6_6/uploading-data-with-solr-cell-using-apache-tika.html