如何在 AWS Glue 中设置多个 --conf table 参数?
How do I set multiple --conf table parameters in AWS Glue?
关于 AWS Glue 的 Whosebug 的多个答案说要设置 --conf table 参数。但是,有时在一个作业中我们需要在 1 个作业中设置多个 --conf 键值对。
我尝试了以下方法来设置多个 --conf 值导致错误:
- 添加另一个名为 --conf 的 table 参数。这导致 AWS Dashboard 删除名为 --conf 的第二个参数并将焦点设置为名为 --conf 的第一个参数的值。 Terraform 也只认为带有键
--conf
的 table 参数相等,并用第二个参数的值覆盖第一个参数中的值。
- 在 table --conf 参数的值中用 space 分隔配置键值参数。例如。
spark.yarn.executor.memoryOverhead=1024 spark.yarn.executor.memoryOverhead=7g spark.yarn.executor.memory=7g
。这导致无法启动作业。
- 在 table --conf 参数的值中用逗号分隔配置键值参数。例如。
spark.yarn.executor.memoryOverhead=1024, spark.yarn.executor.memoryOverhead=7g, spark.yarn.executor.memory=7g
。这导致无法启动作业。
- 将 --conf 的值设置为使用
--conf
字符串分隔每个键值。例如。 spark.yarn.executor.memoryOverhead=1024 --conf spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g
。这会导致粘合作业挂起。
如何在 AWS Glue 中设置多个 --conf table 参数?
您可以传递多个参数,如下所示:
密钥: --conf
值: spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g
这对我有用。
您可以通过编辑作业和添加作业参数来覆盖参数。我使用的键和值在这里:
Key: --conf
Value: spark.yarn.executor.memoryOverhead=7g
这似乎违反直觉,因为设置键实际上在值中,但它被识别了。因此,如果您尝试设置 spark.yarn.executor.memory,则以下参数是合适的:
Key: --conf
Value: spark.yarn.executor.memory=7g
查找更多信息(我从这里添加了这个答案):
关于 AWS Glue 的 Whosebug 的多个答案说要设置 --conf table 参数。但是,有时在一个作业中我们需要在 1 个作业中设置多个 --conf 键值对。
我尝试了以下方法来设置多个 --conf 值导致错误:
- 添加另一个名为 --conf 的 table 参数。这导致 AWS Dashboard 删除名为 --conf 的第二个参数并将焦点设置为名为 --conf 的第一个参数的值。 Terraform 也只认为带有键
--conf
的 table 参数相等,并用第二个参数的值覆盖第一个参数中的值。 - 在 table --conf 参数的值中用 space 分隔配置键值参数。例如。
spark.yarn.executor.memoryOverhead=1024 spark.yarn.executor.memoryOverhead=7g spark.yarn.executor.memory=7g
。这导致无法启动作业。 - 在 table --conf 参数的值中用逗号分隔配置键值参数。例如。
spark.yarn.executor.memoryOverhead=1024, spark.yarn.executor.memoryOverhead=7g, spark.yarn.executor.memory=7g
。这导致无法启动作业。 - 将 --conf 的值设置为使用
--conf
字符串分隔每个键值。例如。spark.yarn.executor.memoryOverhead=1024 --conf spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g
。这会导致粘合作业挂起。
如何在 AWS Glue 中设置多个 --conf table 参数?
您可以传递多个参数,如下所示:
密钥: --conf
值: spark.yarn.executor.memoryOverhead=7g --conf spark.yarn.executor.memory=7g
这对我有用。
您可以通过编辑作业和添加作业参数来覆盖参数。我使用的键和值在这里:
Key: --conf
Value: spark.yarn.executor.memoryOverhead=7g
这似乎违反直觉,因为设置键实际上在值中,但它被识别了。因此,如果您尝试设置 spark.yarn.executor.memory,则以下参数是合适的:
Key: --conf
Value: spark.yarn.executor.memory=7g
查找更多信息(我从这里添加了这个答案):