ElasticSearch - 使用 Java API 索引大文件

ElasticSearch - Index a large file using Java API

我们有一个要求,我们必须使用 ElasticSearch 来执行全文搜索。我们有一个基于 Spring 的应用程序,为了与 ES 集成,我们可以使用 Elastic Search 的 Java API 或 ElasticSearch 的 Spring Data。

输入的文件类型约为 5MB。

我查看了 ES Java API 和 SpringData 的示例,它们确实有 可用于插入 JSON 文档的教程。

但是关于使用文件作为输入来创建 documents/index 的任何帮助都不可用。

我是 Elastic Search 的新手,任何关于此的 guidance/help 都将不胜感激。

编辑:

我看到 ES 中有一个 Ingest Attachment Processor 插件可用 (https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html)。

任何人都可以指出一个示例 CURL 请求以使用此插件或任何 Java 代码以使用此插件

1.You 可以使用 Elasticsearch 映射器附件插件。这个插件使用 Apache Tika 来提取几乎所有已知类型的文档,并使其可以被 Elasticsearch 搜索。

https://www.elastic.co/guide/en/elasticsearch/plugins/2.3/mapper-attachments.html

2.You 可以使用 Apache Tika 从文件中提取有用的内容并使用 elasticsearch Bulk Indexing api 索引到 ES

希望对您有所帮助