在 AWS Glue 作业中写入 S3 时是否可以指定 SSE:KMS 密钥 ID?
Can a SSE:KMS Key ID be specified when writing to S3 in an AWS Glue Job?
如果您按照 AWS Glue 添加作业向导创建脚本以将 parquet 文件写入 S3,您最终会生成类似这样的代码。
datasink4 = glueContext.write_dynamic_frame.from_options(
frame=dropnullfields3,
connection_type="s3",
connection_options={"path": "s3://my-s3-bucket/datafile.parquet"},
format="parquet",
transformation_ctx="datasink4",
)
是否可以指定一个 KMS 密钥,以便数据在存储桶中被加密?
粘附 scala 作业
val spark: SparkContext = new SparkContext()
val glueContext: GlueContext = new GlueContext(spark)
spark.hadoopConfiguration.set("fs.s3.enableServerSideEncryption", "true")
spark.hadoopConfiguration.set("fs.s3.serverSideEncryption.kms.keyId", args("ENCRYPTION_KEY"))
我认为 Python 的语法应该不同,但想法相同
要使用 PySpark 拼出答案,您可以执行任一操作
from pyspark.conf import SparkConf
[...]
spark_conf = SparkConf().setAll([
("spark.hadoop.fs.s3.enableServerSideEncryption", "true"),
("spark.hadoop.fs.s3.serverSideEncryption.kms.keyId", "<Your Key ID>")
])
sc = SparkContext(conf=spark_conf)
注意 spark.hadoop
前缀 - 或(更丑但更短)
sc._jsc.hadoopConfiguration().set("fs.s3.enableServerSideEncryption", "true")
sc._jsc.hadoopConfiguration().set("fs.s3.serverSideEncryption.kms.keyId", "<Your Key ID>")
其中 sc
是您当前的 SparkContext。
这不是必需的。也许是第一次提出问题的时候,但同样可以通过创建安全配置并将其与胶水作业相关联来实现。请记住在您的脚本中包含此内容,否则它不会执行此操作:
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
https://docs.aws.amazon.com/glue/latest/dg/encryption-security-configuration.html
https://docs.aws.amazon.com/glue/latest/dg/set-up-encryption.html
如果您按照 AWS Glue 添加作业向导创建脚本以将 parquet 文件写入 S3,您最终会生成类似这样的代码。
datasink4 = glueContext.write_dynamic_frame.from_options(
frame=dropnullfields3,
connection_type="s3",
connection_options={"path": "s3://my-s3-bucket/datafile.parquet"},
format="parquet",
transformation_ctx="datasink4",
)
是否可以指定一个 KMS 密钥,以便数据在存储桶中被加密?
粘附 scala 作业
val spark: SparkContext = new SparkContext()
val glueContext: GlueContext = new GlueContext(spark)
spark.hadoopConfiguration.set("fs.s3.enableServerSideEncryption", "true")
spark.hadoopConfiguration.set("fs.s3.serverSideEncryption.kms.keyId", args("ENCRYPTION_KEY"))
我认为 Python 的语法应该不同,但想法相同
要使用 PySpark 拼出答案,您可以执行任一操作
from pyspark.conf import SparkConf
[...]
spark_conf = SparkConf().setAll([
("spark.hadoop.fs.s3.enableServerSideEncryption", "true"),
("spark.hadoop.fs.s3.serverSideEncryption.kms.keyId", "<Your Key ID>")
])
sc = SparkContext(conf=spark_conf)
注意 spark.hadoop
前缀 - 或(更丑但更短)
sc._jsc.hadoopConfiguration().set("fs.s3.enableServerSideEncryption", "true")
sc._jsc.hadoopConfiguration().set("fs.s3.serverSideEncryption.kms.keyId", "<Your Key ID>")
其中 sc
是您当前的 SparkContext。
这不是必需的。也许是第一次提出问题的时候,但同样可以通过创建安全配置并将其与胶水作业相关联来实现。请记住在您的脚本中包含此内容,否则它不会执行此操作:
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
https://docs.aws.amazon.com/glue/latest/dg/encryption-security-configuration.html https://docs.aws.amazon.com/glue/latest/dg/set-up-encryption.html