从 elasticsearch-spark 检索指标
Retrieve metrics from elasticsearch-spark
在 ETL 级联作业结束时,我使用 Hadoop metrics that elasticsearch-hadoop 使用 Hadoop 计数器公开来提取有关 Elasticsearch 摄取的指标。
我想使用 Spark 执行相同的操作,但我没有找到与使用 Spark connector 的指标相关的文档。
不总是,但通常,我们将在 EMR (Hadoop) 中执行作业,因此可能 Spark connector 以与级联连接器相同的方式使用 Hadoop。无论如何,我认为情况并非如此,因为我认为它仅适用于 "MapReduce connector types",如 Cascading。
所以我的问题是:
- 如何从 Elasticsearch Spark 连接器中提取指标?
- 如果连接器正在使用 Hadoop 计数器,当我在 Hadoop Yarn 中执行它时如何从 Spark 访问 Hadoop 计数器?
版本:
- Scala 2.11.8
- Spark 2.1
- Hadoop 2.7.2
- elasticsearch-spark-20_2.11 5.2.2
基本上没有实现。有一个 ticket on Spark, opened on 01/Apr/16 并且没有任何 activity 仍然打开,所以没有人照顾它。
还有一个 discussion in the ES forum,但没有解决方法。
在 ETL 级联作业结束时,我使用 Hadoop metrics that elasticsearch-hadoop 使用 Hadoop 计数器公开来提取有关 Elasticsearch 摄取的指标。
我想使用 Spark 执行相同的操作,但我没有找到与使用 Spark connector 的指标相关的文档。
不总是,但通常,我们将在 EMR (Hadoop) 中执行作业,因此可能 Spark connector 以与级联连接器相同的方式使用 Hadoop。无论如何,我认为情况并非如此,因为我认为它仅适用于 "MapReduce connector types",如 Cascading。
所以我的问题是:
- 如何从 Elasticsearch Spark 连接器中提取指标?
- 如果连接器正在使用 Hadoop 计数器,当我在 Hadoop Yarn 中执行它时如何从 Spark 访问 Hadoop 计数器?
版本:
- Scala 2.11.8
- Spark 2.1
- Hadoop 2.7.2
- elasticsearch-spark-20_2.11 5.2.2
基本上没有实现。有一个 ticket on Spark, opened on 01/Apr/16 并且没有任何 activity 仍然打开,所以没有人照顾它。
还有一个 discussion in the ES forum,但没有解决方法。