为 spark 作业设置 hbase 参数
Set hbase paramter for spark job
有没有办法将 hbase.rpc.timeout 传递给通过 shell 脚本调用的 spark 作业。我知道我们可以在自己的 spark 作业中创建 HBaseConfiguration 时设置 hbase.rpc.timeout 值。但我想传递 shell 的值。
类似于:
${SPARK_SUBMIT}
--class mySpark \
--num-executors ${NUM_EXECUTORS} \
--master yarn-cluster \
--deploy-mode cluster \
--hbase.rpc.timeout 600000 . \
${SPARK_JAR} "${START_TIME}" "${END_TIME}" "${OUTPUT_PATH}" 2>&1 | tee -a ${logPath}
有两种方法
重新生成 hbase.rpc.timeout 600000
作为应用程序参数。并在你的 SPARK_JAR
中处理它
喜欢你想要的--conf hbase.rpc.timeout=600000
。那么sparkContext.getConf().get("hbase.rpc.timeout")
有没有办法将 hbase.rpc.timeout 传递给通过 shell 脚本调用的 spark 作业。我知道我们可以在自己的 spark 作业中创建 HBaseConfiguration 时设置 hbase.rpc.timeout 值。但我想传递 shell 的值。
类似于:
${SPARK_SUBMIT}
--class mySpark \
--num-executors ${NUM_EXECUTORS} \
--master yarn-cluster \
--deploy-mode cluster \
--hbase.rpc.timeout 600000 . \
${SPARK_JAR} "${START_TIME}" "${END_TIME}" "${OUTPUT_PATH}" 2>&1 | tee -a ${logPath}
有两种方法
重新生成
hbase.rpc.timeout 600000
作为应用程序参数。并在你的SPARK_JAR
中处理它
喜欢你想要的
--conf hbase.rpc.timeout=600000
。那么sparkContext.getConf().get("hbase.rpc.timeout")