基于 Oozie 文件的协调器
Oozie file based coordinator
我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调器应等待文件创建。
我尝试使用以下代码:
<coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
<datasets>
<dataset name="input1" frequency="60" initial-instance="2009-01-01T00:00Z" timezone="UTC">
<uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
<done-flag>trigger.dat</done-flag>
</dataset>
</datasets>
<input-events>
<data-in name="coordInput1" dataset="input1">
<start-instance>${coord:current(-23)}</start-instance>
<end-instance>${coord:current(0)}</end-instance>
</data-in>
</input-events>
<action>
<workflow>
<app-path>hdfs://localhost:9000/tmp/workflows</app-path>
</workflow>
</action>
</coordinator-app>
我启动了 Oozie 作业,它处于 WAITING 状态。我已经执行了将在 HDFS (hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/$ 中的指定目录结构中创建文件 (trigger.dat) 的脚本{DAY}/${HOUR})。
文件创建成功,还是WAITING状态。
谁能帮我解决这个问题..
我已经更改了开始日期和结束日期,现在可以使用了。
coordinator.xml 工作是:
<coordinator-app name="MY_APP" frequency="60" start="2015-01-12T05:00Z" end="2015-01-12T08:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
<datasets>
<dataset name="input1" frequency="30" initial-instance="2015-01-12T04:02Z" timezone="UTC">
<uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
<done-flag>trigger.dat</done-flag>
</dataset>
</datasets>
<input-events>
<data-in name="coordInput1" dataset="input1">
<start-instance>${coord:current(-1)}</start-instance>
<end-instance>${coord:current(0)}</end-instance>
</data-in>
</input-events>
<action>
<workflow>
<app-path>hdfs://localhost:9000/tmp/workflows</app-path>
<configuration>
<property>
<name>property1</name>
<value>${coord:dataIn('coordInput1')}</value>
</property>
</configuration>
</workflow>
</action>
</coordinator-app>
我观察到的一些要点是:
预期的目录结构是基于我们定义的数据集的initial-instance="2015-01-12T04:02Z"和frequency="30"。
如果不在下面声明 属性 数据集将不会被 Oozie 考虑
<property>
<name>property1</name>
<value>${coord:dataIn('coordInput1')}</value>
</property>
Oozie 始终考虑 GMT/UTC 时区。在安排任何工作流程时,请牢记格林威治标准时间并相应地安排时间。
在创建目录之前,协调器作业将处于 运行 状态,但工作流作业将处于等待状态。
我正在尝试创建一个具有基于文件的依赖项的协调器。我的目标是只有在创建了指定的文件时,协调器才应该执行工作流。如果文件未创建,协调器应等待文件创建。 我尝试使用以下代码:
<coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
<datasets>
<dataset name="input1" frequency="60" initial-instance="2009-01-01T00:00Z" timezone="UTC">
<uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
<done-flag>trigger.dat</done-flag>
</dataset>
</datasets>
<input-events>
<data-in name="coordInput1" dataset="input1">
<start-instance>${coord:current(-23)}</start-instance>
<end-instance>${coord:current(0)}</end-instance>
</data-in>
</input-events>
<action>
<workflow>
<app-path>hdfs://localhost:9000/tmp/workflows</app-path>
</workflow>
</action>
</coordinator-app>
我启动了 Oozie 作业,它处于 WAITING 状态。我已经执行了将在 HDFS (hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/$ 中的指定目录结构中创建文件 (trigger.dat) 的脚本{DAY}/${HOUR})。 文件创建成功,还是WAITING状态。
谁能帮我解决这个问题..
我已经更改了开始日期和结束日期,现在可以使用了。
coordinator.xml 工作是:
<coordinator-app name="MY_APP" frequency="60" start="2015-01-12T05:00Z" end="2015-01-12T08:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
<datasets>
<dataset name="input1" frequency="30" initial-instance="2015-01-12T04:02Z" timezone="UTC">
<uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
<done-flag>trigger.dat</done-flag>
</dataset>
</datasets>
<input-events>
<data-in name="coordInput1" dataset="input1">
<start-instance>${coord:current(-1)}</start-instance>
<end-instance>${coord:current(0)}</end-instance>
</data-in>
</input-events>
<action>
<workflow>
<app-path>hdfs://localhost:9000/tmp/workflows</app-path>
<configuration>
<property>
<name>property1</name>
<value>${coord:dataIn('coordInput1')}</value>
</property>
</configuration>
</workflow>
</action>
</coordinator-app>
我观察到的一些要点是:
预期的目录结构是基于我们定义的数据集的initial-instance="2015-01-12T04:02Z"和frequency="30"。
如果不在下面声明 属性 数据集将不会被 Oozie 考虑
<property> <name>property1</name> <value>${coord:dataIn('coordInput1')}</value> </property>
Oozie 始终考虑 GMT/UTC 时区。在安排任何工作流程时,请牢记格林威治标准时间并相应地安排时间。
在创建目录之前,协调器作业将处于 运行 状态,但工作流作业将处于等待状态。