Ambari Hadoop/Spark 和 Elasticsearch SSL 集成

Ambari Hadoop/Spark and Elasticsearch SSL Integration

我通过 Ambari ( HDP -2.6.2.0) 设置了 Hadoop/Spark 集群。现在我有了集群运行，我想向其中输入一些数据。我们内部有一个 Elasticsearch 集群（5.6 版）。我想设置 Elastic 提供的 ES-Hadoop 连接器 (https://www.elastic.co/guide/en/elasticsearch/hadoop/current/doc-sections.html)，这样我就可以将一些数据从 Elastic 转储到 HDFS。我用 JARS 抓取了 ZIP 文件，并按照 CERN 博客 post 上的说明进行操作：

https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and-querying

到目前为止，这似乎是合理的，但我有一些问题：

我们在 Elasticsearch 集群上设置了 SSL/TLS，所以当我执行查询时，使用博客上的示例显然会出错。我需要在 Hadoop/Spark 端和 Elastic 端做什么才能使这种通信正常进行？
我读到我需要将这些 JARS 添加到 Spark 类路径中 - 关于我应该将它们放在我的集群中的什么位置是否有经验法则？我承担了我的 Spark Client 节点，但我不确定。另外，一旦我把它们放在那里，有没有办法将它们添加到类路径中，以便我的所有节点/客户端节点都具有相同的类路径？也许 Ambari 中的某些东西提供了这一点？

基本上我正在寻找的是能够从 Spark 执行对 ES 的查询，该查询触发一个作业，告诉 ES 将 "X" 数据量推送到我的 HDFS。根据我在 Elastic 网站上看到的内容，我认为它应该是这样工作的，但我真的对文档感到困惑。它缺乏并且让我和我的 Elastic 团队感到困惑。有人可以就我需要做什么来提供一些明确的指导或说明吗？

题中项目设置部分可以看一下

https://github.com/zouzias/elasticsearch-spark-example

elasticsearch与spark集成的项目模板

Ambari Hadoop/Spark 和 Elasticsearch SSL 集成

Ambari Hadoop/Spark and Elasticsearch SSL Integration

hadoop

elasticsearch

apache-spark

ambari