我如何找出 Mesos Chronos 作业失败的原因？

Question

我曾经使用 cron 作为我的备份例程，一切都很好：

tar c --exclude=owncloud --exclude=hadoop -C /var/opt . | pigz -c -p 4 --best 
| hadoop fs -put - /apps/appBackups/myserver_var_opt_$(date +\%Y-\%m-\%d_\%H-\%M-\%S).tar.gz

当我将它移至 Mesos Chronos 时，即使我强制运行它也会时不时地开始失败：

ssh root@myserver <<'ENDSSH' bash daily_opt_backup.sh ENDSSH

mesos-master.INFO 日志的描述性不够 - 它们显示任务的状态（TASK_RUNNING、ACKNOWLEDGE 调用、TASK_FINISHED 和 UUID），但不是原因任务失败。我在哪里可以找到这些信息？

Answer 1

作业失败，因为一些从属没有私钥以 root 身份登录。正确的方法是将脚本放到 HDFS，这样每个 mesos-slave 都可以复制并运行它：

hadoop fs -get /apps/utils/daily_opt_backup.sh && chmod +x daily_opt_backup.sh
 && ./daily_opt_backup.sh

我如何找出 Mesos Chronos 作业失败的原因？

How can I find out why Mesos Chronos job fails?

mesos