如何在aws glue中设置特定的压缩值?如果可能,是否可以在 aws glue 中手动确定压缩级别和分区?
How to set a specific compression value in aws glue? If possible, can the compression level and partitions be determined manually in aws glue?
我希望使用胶水将数据从源提取到 s3。是否可以将胶水中摄取的数据压缩到指定值?例如:将数据压缩到 500 MB 并且还能够根据提供的压缩值对数据进行分区?如果是,如何启用它?我正在 Python.
中编写胶水脚本
压缩和分组是相似的术语。压缩发生在镶木地板输出上。但是,您可以使用 'groupSize': '31457280' (30 mb) 来指定输出文件的动态帧大小(并且是默认输出大小)(至少大多数,最后一个文件是将是剩下的)。
您还需要 careful/leverage Glue CPU 类型和数量。比如最大容量 10,工人类型标准。
G.2X 往往会创建太多小文件(will/all 取决于您的 situation/inputs。)
如果你除了读取许多小文件并在一个大组中原封不动地写入它们之外什么都不做,它们将被“default compressed/grouped”放入“groupsize”。如果您想看到文件写入大小的大幅减少,请将输出格式化为 parquet。 glueContext.create_dynamic_frame_from_options(connection_type = "s3", format="json",connection_options = {"路径":"s3://yourbucketname/folder_name/2021/01/"],递归':真,'groupFiles':'inPartition','groupSize':'31457280'})
我希望使用胶水将数据从源提取到 s3。是否可以将胶水中摄取的数据压缩到指定值?例如:将数据压缩到 500 MB 并且还能够根据提供的压缩值对数据进行分区?如果是,如何启用它?我正在 Python.
中编写胶水脚本压缩和分组是相似的术语。压缩发生在镶木地板输出上。但是,您可以使用 'groupSize': '31457280' (30 mb) 来指定输出文件的动态帧大小(并且是默认输出大小)(至少大多数,最后一个文件是将是剩下的)。 您还需要 careful/leverage Glue CPU 类型和数量。比如最大容量 10,工人类型标准。 G.2X 往往会创建太多小文件(will/all 取决于您的 situation/inputs。) 如果你除了读取许多小文件并在一个大组中原封不动地写入它们之外什么都不做,它们将被“default compressed/grouped”放入“groupsize”。如果您想看到文件写入大小的大幅减少,请将输出格式化为 parquet。 glueContext.create_dynamic_frame_from_options(connection_type = "s3", format="json",connection_options = {"路径":"s3://yourbucketname/folder_name/2021/01/"],递归':真,'groupFiles':'inPartition','groupSize':'31457280'})