具有各种文档（pdf、ppt、MS word、纯文本等）的 hadoop 可搜索存档的最佳实践

Best practices for searchable archive with hadoop with variety of documents(pdf,ppt,MS word,plain text etc.)

我有一个问题，我有各种格式的文档，如 PDF、MS Word、PPT、纯文本等，它们存储在 HDFS。我应该将内容提取到 elasticsearch 索引中，并为其构建一个全文搜索系统。我读过 ES-Hadoop。但是我有点困惑我是否可以使用 ES 的 mapper-attachments plugin 或 Apache Tika 在这种情况下以及 ES-Hadoop 是否是实时的（以防我使用它）。

我很好奇从文档中提取内容到 ES 索引并进行搜索的正确方法是什么。

如有任何帮助，我们将不胜感激。

萨钦

关于你的问题是使用ES mapper attachment plugin还是Apache Tika。我建议您使用 mapper 插件，因为它与 Elasticsearch 很好地集成在一起，并且会为您节省大量的索引开销和将元信息添加到您正在索引的文档中。

据我所知，ES-Hadoop 不公开流（实时）API。我正在使用 ES-Hadoop 和 Apache Spark，并且必须自己使用 Apache Kafka 将流数据排序到 Elasticsearch。

希望对您有所帮助。

具有各种文档（pdf、ppt、MS word、纯文本等）的 hadoop 可搜索存档的最佳实践

Best practices for searchable archive with hadoop with variety of documents(pdf,ppt,MS word,plain text etc.)

hadoop

full-text-search

hdfs

elasticsearch

elasticsearch-plugin