Job Scheduler - 用于编写作业定义的 YAML?

Job Scheduler - YAML for writing job definition?

在我们的遗留作业调度软件(建立在 crontab 之上)中,我们使用 apache 配置格式 (parser) 来编写作业定义,我们使用 perl config general 来解析配置文件。该软件是高度定制的,并且具有 运行 在检查是否满足该命令的依赖性后在我的工作中执行命令、在命令失败时重新安排作业、支持自定义通知等功能

我们现在计划在 python 中重写此软件,并考虑使用 YAML 等选项代替 apache 配置来编写作业定义。 YAML 是否适合编写此类动态配置?

工作定义示例(运行 该工作每天凌晨 2 点,检查是否是星期二而不是印度的假期,如果是,请预订我的航班并发送通知):

// python function to check if it is tuesday
checkIfTuesdayAndNotHoliday()

<job> 
    calendar: indian

        <dependency: arbitrary_python_code: checkIfTuesdayAndNotHoliday()>
        <command>  
            check availability of flight
        </command>

        <success: notify: email: agrawall/>
        <failure: notify: email: ops>
        <command>
            some command to book my flight
        </command>
</job>

<crontab> 0 2 * * * </crontab>

我很难理解应该使用什么格式来定义作业(YAML、Apache Config、XML、JSON 等)。请注意,此作业定义将在我的 python 脚本中转换为作业对象。

我们当前使用的 perl 中的 Apache 配置解析器 https://metacpan.org/source/TLINDEN/Config-General-2.63/General.pm#L769

python 中的 Apache 配置解析器我们计划使用 https://github.com/etingof/apacheconfig

新趋势是使用 Python 文件作为配置。这就是 Django 和 Flask 中所做的。它是人类可读的,易于定义和更新,当然也可以直接转换为 Python 对象。

另请参阅 “Pros and cons for different configuration formats?” 的已接受答案。

另请参阅这篇文章 “Configuration files in Python”

这是一个例子 (setting.py):

def check_if_tuesday_and_not_holiday():
    """check if it is tuesday and not holiday"""
    return True

JOB = {
    'calendar': 'indian',
    'dependency': {
        'arbitrary_python_code': check_if_tuesday_and_not_holiday  # callback
    },
    'command': 'check availability of flight',
    'success': {
        'notify': {
            'email': 'agrawall'
        },
        'command': 'some command to book my flight'
    },
    'failure': {
        'notify': {
            'email': 'ops'
        }
    }
}

CRONTAB = '0 2 * * *'

注意:我不确定是否理解您的配置文件,因此我会尽力使其适应Python...

基于

Python 的配置文件至少在 Python 1.6(即 2000 年之前)中以 distutils' setup.py 的形式存在。使用这种格式的主要缺点是很难以编程方式更新配置中的值。即使你只是想做一些额外的实用程序来分析这些文件,你甚至必须特别注意你可以在不执行代码的情况下导入这样的配置文件,而且还没有通过导入引入各种依赖项。这可以通过使用 if __name__ == '__main__': 或更容易地通过仅将配置信息作为文件中的数据结构来实现。

因此,如果更新文件永远不会成为问题,那么您可以使用基于 Python 的数据结构,这些结构非常易读。

XML 和 JSON 不是适合手动编辑的格式。 XML 有很多 <> 无需特殊工具即可轻松打字。 JSON 有太多的双引号使阅读变得困难,但它也有各种各样的问题,因为 JSON 不允许在数组和对象中使用尾随逗号导致人们写这样的对象:

{ 
    "a": 1
  , "b": 2
}

这可以防止您删除最后一行而忘记删除分隔 key/value 对的逗号,但 IMO 可读性不同。

另一方面,YAML 可以编写得非常可读,但是在编辑文件时必须考虑一些规则。在我的回答 中,我展示了一些可以包含在 YAML 文件中的基本规则,编辑人员在编辑时需要考虑这些规则。 YAML 可以被 Python 以外的其他语言读取(使用基于 Python 的配置文件很难做到这一点)。

您可以使用 YAML 标签(以及与这些标签关联的适当的 Python 对象),因此您不必依赖于从某些键值对中解释键来理解值解释的内容:

- !Job
  calendar: !Calendar indian
  dependency: !Arbitrary_python_code checkIfTuesdayAndNotHoliday()
  command: !CommandTester
     exec: !Exec check availability of flight
     success: !Commands
       - !Notify 
          email: agrawall
       - !Exec some command to book my flight
     failure: !Commands
       - !Notify 
           email: ops

(底部是与这些标签关联的 类 的 部分 示例实现)

当您使用 ruamel.yaml(免责声明:我是该包的作者)时,即使不丢失评论、键顺序、标签,YAML 也可以以编程方式更新。


我一直在参数化我的 Python 包(我管理 100 多个包,其中一些在 PyPI 上,其他仅针对特定客户),通过阅读我的通用 setup.py 来自每个包的 __init__.py 文件。我已经尝试插入 Python 的 JSON 子集,但最终开发了 PON(Python Object Notation),无需导入即可由 setup.py 轻松解析__init__.py 文件在 Python 标准库中包含的 AST literal_eval 上有一个小的(100 行)扩展。

PON 可以在没有任何库的情况下使用(因为它是 Python 数据结构的子集,包括字典、列表、集合、元组和基本类型,如整数、浮点数、布尔值、字符串、日期、日期时间.因为它是基于AST求值器的,你可以在你的配置文件中做计算(secs_per_day = 24 * 60 * 60)和其他求值。

PON 自述文件还更详细地描述了该格式相对于 YAML、JSON、INI、XML 的优点(和缺点)。

使用配置数据不需要 PON 包,只有当您想对 PON 数据进行编程往返(加载-编辑-转储)时才需要。


import sys
from ruamel.yaml import YAML, yaml_object

yaml = YAML()

@yaml_object(yaml)
class CommandTester:
    yaml_tag = u'!CommandTester'

    def __init__(self, exec=None, success=None, failure=None):
        self.exec = exec
        self.success = success
        self.failure = failure

    def __call__(self):
        if self.exec():
            self.success()
        else:
            self.failure()

@yaml_object(yaml)
class Commands:
    """a list of commands"""
    yaml_tag = u'!Commands'

    def __init__(self, commands):
        self._commands = commands  # list of commands to execute

    @classmethod
    def from_yaml(cls, constructor, node):
        for m in yaml.constructor.construct_yaml_seq(node):
            pass
        return cls(m)

    @classmethod
    def to_yaml(cls, representer, node):
        return representer.represent_sequence(cls.yaml_tag, node._commands)

    def __call__(self, verbose=0, stop_on_error=False):
        res = True
        for cmd in self._cmd:
            try:
                res = subprocess.check_output(cmd)
            except Exception as e:
                res = False
                if stop_on_error:
                    break
            return res

@yaml_object(yaml)
class Command(Commands):
    """a single command"""
    yaml_tag = u'!Exec'

    def __init__(self, command):
        Commands.__init__(self, [command])

    @classmethod
    def from_yaml(cls, constructor, node):
        return cls(node.value)

    @classmethod
    def to_yaml(cls, representer, node):
        return representer.represent_scalar(cls.yaml_tag, node._commands[0])


@yaml_object(yaml)
class Notifier:
    yaml_tag = u'!Notify'

with open("job.yaml") as fp:
    job = yaml.load(fp)

yaml.dump(job, sys.stdout)