我如何找出 Mesos Chronos 作业失败的原因?

How can I find out why Mesos Chronos job fails?

我曾经使用 cron 作为我的备份例程,一切都很好:

tar c --exclude=owncloud --exclude=hadoop -C /var/opt . | pigz -c -p 4 --best 
| hadoop fs -put - /apps/appBackups/myserver_var_opt_$(date +\%Y-\%m-\%d_\%H-\%M-\%S).tar.gz

当我将它移至 Mesos Chronos 时,即使我强制 运行 它也会时不时地开始失败:

ssh root@myserver <<'ENDSSH' bash daily_opt_backup.sh ENDSSH

mesos-master.INFO 日志的描述性不够 - 它们显示任务的状态(TASK_RUNNING、ACKNOWLEDGE 调用、TASK_FINISHED 和 UUID),但不是原因任务失败。 我在哪里可以找到这些信息?

作业失败,因为一些从属没有私钥以 root 身份登录。正确的方法是将脚本放到 HDFS,这样每个 mesos-slave 都可以复制并 运行 它:

hadoop fs -get /apps/utils/daily_opt_backup.sh && chmod +x daily_opt_backup.sh
 && ./daily_opt_backup.sh