AWS:将作业参数值从 Step 函数传递到 Glue 作业
AWS : Passing Job parameters Value to Glue job from Step function
我创建了 3 个 Glue 作业,其中一个作业参数 key/value 如下所示:运行id id
如果我像这样使用 AWS CLI 执行 Glue 作业,它工作正常:
aws glue start-job-运行 --jobname $job --arguments='--运行id="Runid_10"'
这 3 个 Glue 作业在一步函数和状态机中定义为:
{
"Comment":"Sample Step Function",
"StartAt":"First Glue Job",
"States": {
"First Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Firstjob"
},
"Next": "Second Glue Job"
},
"Second Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Secondjob"
},
"Next": "Third Glue Job"
},
"Third Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Thirdjob"
},
"End": true
}
}
}
如果我尝试使用输入参数执行此状态机,则此输入参数值不会传递给 Gluejob。
我是否需要修改状态机作业定义以将输入参数值传递给已作为状态机的一部分传递的 Glue 作业 运行。请指导我如何操作。
aws stepfunctions 开始执行 --state-machine-arn arn:aws:states:us-east-1:123456789012:stateMachine:HelloWorld --input "{运行id":"Runid_10" }
状态机正在成功执行,但 Runid 值未传递给 Gluejob 参数。
请告诉我如何传递具有内部状态机定义的 Glue 作业参数值。
我正在使用这样的 Arguments 参数:
{
"Comment":"Sample Step Function",
"StartAt":"First Glue Job",
"States": {
"First Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Firstjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath" : "$.runid",
"Next": "Second Glue Job"
},
"Second Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Secondjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath" : "$.runid",
"Next": "Third Glue Job"
},
"Third Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Thirdjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath" : "$.runid",
"End": true
}
}
}
在执行 "start execution" 状态机期间,在输入可选 window 中传递输入 JSON {"--运行id" : "runid_10"}。
请注意:runid_n,其中 n 是整数,会发生变化。
我将在 Glue 作业中将 runid_10 值附加到输出文件,输出文件类似于 GlueJob-Firstjob_output_runid_10.csv
输入值 'runid' 作为事件传递给 Step Function 内的 Lambda 函数。要将它从一个 Lambda 函数传递到另一个函数,您只需 return 将从头到尾传递数据的事件。该事件包含您的 'runid' 参数。
看看here.
您需要将其添加到 Arguments
内的 Parameters
属性中,这样它就会像:
"Parameters" : {
"JobName": "GlueJob-Firstjob",
"Arguments": {
"--run_id":"$.runid"
}
}
供您参考,您可以check.Supported参数部分:here。
更新:
您需要在任务定义中添加 ResultPath,例如:
"First Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Firstjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath": "$.output"
}
我创建了 3 个 Glue 作业,其中一个作业参数 key/value 如下所示:运行id id
如果我像这样使用 AWS CLI 执行 Glue 作业,它工作正常: aws glue start-job-运行 --jobname $job --arguments='--运行id="Runid_10"'
这 3 个 Glue 作业在一步函数和状态机中定义为:
{
"Comment":"Sample Step Function",
"StartAt":"First Glue Job",
"States": {
"First Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Firstjob"
},
"Next": "Second Glue Job"
},
"Second Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Secondjob"
},
"Next": "Third Glue Job"
},
"Third Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Thirdjob"
},
"End": true
}
}
}
如果我尝试使用输入参数执行此状态机,则此输入参数值不会传递给 Gluejob。 我是否需要修改状态机作业定义以将输入参数值传递给已作为状态机的一部分传递的 Glue 作业 运行。请指导我如何操作。
aws stepfunctions 开始执行 --state-machine-arn arn:aws:states:us-east-1:123456789012:stateMachine:HelloWorld --input "{运行id":"Runid_10" }
状态机正在成功执行,但 Runid 值未传递给 Gluejob 参数。
请告诉我如何传递具有内部状态机定义的 Glue 作业参数值。
我正在使用这样的 Arguments 参数:
{
"Comment":"Sample Step Function",
"StartAt":"First Glue Job",
"States": {
"First Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Firstjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath" : "$.runid",
"Next": "Second Glue Job"
},
"Second Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Secondjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath" : "$.runid",
"Next": "Third Glue Job"
},
"Third Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Thirdjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath" : "$.runid",
"End": true
}
}
}
在执行 "start execution" 状态机期间,在输入可选 window 中传递输入 JSON {"--运行id" : "runid_10"}。
请注意:runid_n,其中 n 是整数,会发生变化。
我将在 Glue 作业中将 runid_10 值附加到输出文件,输出文件类似于 GlueJob-Firstjob_output_runid_10.csv
输入值 'runid' 作为事件传递给 Step Function 内的 Lambda 函数。要将它从一个 Lambda 函数传递到另一个函数,您只需 return 将从头到尾传递数据的事件。该事件包含您的 'runid' 参数。
看看here.
您需要将其添加到 Arguments
内的 Parameters
属性中,这样它就会像:
"Parameters" : {
"JobName": "GlueJob-Firstjob",
"Arguments": {
"--run_id":"$.runid"
}
}
供您参考,您可以check.Supported参数部分:here。
更新: 您需要在任务定义中添加 ResultPath,例如:
"First Glue Job":{
"Type": "Task",
"Resource": "arn:aws:states:::glue:startJobRun.sync",
"Parameters": {
"JobName": "GlueJob-Firstjob",
"Arguments": {
"--runid":"$.runid"
}
},
"ResultPath": "$.output"
}