为什么 Oozie 在 运行 个 MapReduce 作业时分配更多内存?

Why Oozie allocates more memory when running MapReduce jobs?

我是 运行 使用 oozie 的 MapReduce 作业。从工作流中我只是调用 MapReduce 驱动程序 class,除此之外别无其他。但是对于这个 oozie 工作流程需要大量内存。调用驱动程序需要至少 2GB 的容器大小 class。下面是workflow.xml

<?xml version="1.0" encoding="utf-8"?>
<workflow-app xmlns="uri:oozie:workflow:0.4" name="My Job">
<start to="start-job" />
<action name='start-job'>
    <shell xmlns="uri:oozie:shell-action:0.2">
        <job-tracker>${jobTracker}</job-tracker>
        <name-node>${nameNode}</name-node>
        <configuration>
            <property>
                <name>mapred.job.queue.name</name>
                <value>${jobQueue}</value>
            </property>
        </configuration>
        <exec>${jobScript}</exec>
        <argument>${arguments}</argument>
        <argument>${queueName}</argument>
        <argument>${wf:id()}</argument>
        <file>myPath/MyDriver.sh#MyDriver.sh</file>
    </shell>
    <ok to="end" />
    <error to="kill" />
</action>
<kill name="kill">
    <message>Job failed
        failed:[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<end name="end" />

我的 shell 脚本如下所示(MyDriver.sh),

hadoop jar myJar.jar MyDriverClass   

为什么 oozie 占用这么多内存。如何减少oozie的内存占用?

Shell 操作将启动至少 2 个映射器到 运行 您的 java class.

您可以使用 java 操作来避免这种情况。将您的 jar 放入 ${workflow-path}/lib/ 目录并更改您的工作流程:

<action name='start-job'>
    <java>
        <job-tracker>${jobTracker}</job-tracker>
        <name-node>${nameNode}</name-node>
        <configuration>
            <property>
                <name>mapred.job.queue.name</name>
                <value>${jobQueue}</value>
            </property>
        </configuration>
        <main-class>MyDriverClass</main-class>

        <arg>${arguments}</arg>
        <arg>${queueName}</arg>
        <arg>${wf:id()}</arg>
    </java>
    <ok to="end" />
    <error to="kill" />
</action>