Ambari Hadoop/Spark 和 Elasticsearch SSL 集成

Ambari Hadoop/Spark and Elasticsearch SSL Integration

我通过 Ambari ( HDP -2.6.2.0) 设置了 Hadoop/Spark 集群。现在我有了集群 运行,我想向其中输入一些数据。我们内部有一个 Elasticsearch 集群(5.6 版)。我想设置 Elastic 提供的 ES-Hadoop 连接器 (https://www.elastic.co/guide/en/elasticsearch/hadoop/current/doc-sections.html),这样我就可以将一些数据从 Elastic 转储到 HDFS。 我用 JARS 抓取了 ZIP 文件,并按照 CERN 博客 post 上的说明进行操作:

https://db-blog.web.cern.ch/blog/prasanth-kothuri/2016-05-integrating-hadoop-and-elasticsearch-%E2%80%93-part-2-%E2%80%93-writing-and-querying

到目前为止,这似乎是合理的,但我有一些问题:

  1. 我们在 Elasticsearch 集群上设置了 SSL/TLS,所以当我执行查询时,使用博客上的示例显然会出错。我需要在 Hadoop/Spark 端和 Elastic 端做什么才能使这种通信正常进行?

  2. 我读到我需要将这些 JARS 添加到 Spark 类路径中 - 关于我应该将它们放在我的集群中的什么位置是否有经验法则?我承担了我的 Spark Client 节点,但我不确定。另外,一旦我把它们放在那里,有没有办法将它们添加到类路径中,以便我的所有节点/客户端节点都具有相同的类路径?也许 Ambari 中的某些东西提供了这一点?

基本上我正在寻找的是能够从 Spark 执行对 ES 的查询,该查询触发一个作业,告诉 ES 将 "X" 数据量推送到我的 HDFS。根据我在 Elastic 网站上看到的内容,我认为它应该是这样工作的,但我真的对文档感到困惑。它缺乏并且让我和我的 Elastic 团队感到困惑。有人可以就我需要做什么来提供一些明确的指导或说明吗?

题中项目设置部分可以看一下

https://github.com/zouzias/elasticsearch-spark-example

elasticsearch与spark集成的项目模板