我如何找出 Mesos Chronos 作业失败的原因?
How can I find out why Mesos Chronos job fails?
我曾经使用 cron 作为我的备份例程,一切都很好:
tar c --exclude=owncloud --exclude=hadoop -C /var/opt . | pigz -c -p 4 --best
| hadoop fs -put - /apps/appBackups/myserver_var_opt_$(date +\%Y-\%m-\%d_\%H-\%M-\%S).tar.gz
当我将它移至 Mesos Chronos 时,即使我强制 运行 它也会时不时地开始失败:
ssh root@myserver <<'ENDSSH' bash daily_opt_backup.sh ENDSSH
mesos-master.INFO 日志的描述性不够 - 它们显示任务的状态(TASK_RUNNING、ACKNOWLEDGE 调用、TASK_FINISHED 和 UUID),但不是原因任务失败。
我在哪里可以找到这些信息?
作业失败,因为一些从属没有私钥以 root 身份登录。正确的方法是将脚本放到 HDFS,这样每个 mesos-slave 都可以复制并 运行 它:
hadoop fs -get /apps/utils/daily_opt_backup.sh && chmod +x daily_opt_backup.sh
&& ./daily_opt_backup.sh
我曾经使用 cron 作为我的备份例程,一切都很好:
tar c --exclude=owncloud --exclude=hadoop -C /var/opt . | pigz -c -p 4 --best
| hadoop fs -put - /apps/appBackups/myserver_var_opt_$(date +\%Y-\%m-\%d_\%H-\%M-\%S).tar.gz
当我将它移至 Mesos Chronos 时,即使我强制 运行 它也会时不时地开始失败:
ssh root@myserver <<'ENDSSH' bash daily_opt_backup.sh ENDSSH
mesos-master.INFO 日志的描述性不够 - 它们显示任务的状态(TASK_RUNNING、ACKNOWLEDGE 调用、TASK_FINISHED 和 UUID),但不是原因任务失败。 我在哪里可以找到这些信息?
作业失败,因为一些从属没有私钥以 root 身份登录。正确的方法是将脚本放到 HDFS,这样每个 mesos-slave 都可以复制并 运行 它:
hadoop fs -get /apps/utils/daily_opt_backup.sh && chmod +x daily_opt_backup.sh
&& ./daily_opt_backup.sh