在 AWS 上通过 API 在 glue table 上添加分区?
Add a partition on glue table via API on AWS?
我有一个不断被新数据填充的 S3 存储桶,我正在使用 Athena 和 Glue 查询该数据,问题是如果 glue 不知道创建了一个新分区它就不会搜索它需要在那里搜索。如果我每次需要一个新分区时都对 运行 进行 API 调用,Glue 爬虫太昂贵了,所以最好的解决方案是告诉胶水添加了一个新分区,即创建一个新分区在其属性中 table。我查看了 AWS 文档但没有运气,我在 AWS 上使用 Java。有帮助吗?
您可以将胶水爬虫配置为每 5 分钟触发一次
您可以创建一个 lambda 函数,该函数将 运行 按计划进行,或者由您的存储桶中的事件(例如 putObject 事件)触发,并且该函数可以调用 athena 来发现分区:
import boto3
athena = boto3.client('athena')
def lambda_handler(event, context):
athena.start_query_execution(
QueryString = "MSCK REPAIR TABLE mytable",
ResultConfiguration = {
'OutputLocation': "s3://some-bucket/_athena_results"
}
使用 Athena 手动添加分区。您还可以通过 API 运行 sql 查询,就像在我的 lambda 示例中一样。
示例来自 Athena manual:
ALTER TABLE orders ADD
PARTITION (dt = '2016-05-14', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_14_May_2016'
PARTITION (dt = '2016-05-15', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_15_May_2016';
您可能需要使用 batch_create_partition()
胶水 api 来注册新分区。它不需要任何昂贵的操作,如 MSCK REPAIR TABLE 或重新抓取。
我有一个类似的用例,为此我编写了一个 python 脚本来执行以下操作 -
第 1 步 - 获取 table 信息并从中解析注册分区所需的必要信息。
# Fetching table information from glue catalog
logger.info("Fetching table info for {}.{}".format(l_database, l_table))
try:
response = l_client.get_table(
CatalogId=l_catalog_id,
DatabaseName=l_database,
Name=l_table
)
except Exception as error:
logger.error("Exception while fetching table info for {}.{} - {}"
.format(l_database, l_table, error))
sys.exit(-1)
# Parsing table info required to create partitions from table
input_format = response['Table']['StorageDescriptor']['InputFormat']
output_format = response['Table']['StorageDescriptor']['OutputFormat']
table_location = response['Table']['StorageDescriptor']['Location']
serde_info = response['Table']['StorageDescriptor']['SerdeInfo']
partition_keys = response['Table']['PartitionKeys']
步骤 2 - 生成列表字典,其中每个列表包含创建单个分区的信息。所有列表都将具有相同的结构,但它们的分区特定值将发生变化(年、月、日、小时)
def generate_partition_input_list(start_date, num_of_days, table_location,
input_format, output_format, serde_info):
input_list = [] # Initializing empty list
today = datetime.utcnow().date()
if start_date > today: # To handle scenarios if any future partitions are created manually
start_date = today
end_date = today + timedelta(days=num_of_days) # Getting end date till which partitions needs to be created
logger.info("Partitions to be created from {} to {}".format(start_date, end_date))
for input_date in date_range(start_date, end_date):
# Formatting partition values by padding required zeroes and converting into string
year = str(input_date)[0:4].zfill(4)
month = str(input_date)[5:7].zfill(2)
day = str(input_date)[8:10].zfill(2)
for hour in range(24): # Looping over 24 hours to generate partition input for 24 hours for a day
hour = str('{:02d}'.format(hour)) # Padding zero to make sure that hour is in two digits
part_location = "{}{}/{}/{}/{}/".format(table_location, year, month, day, hour)
input_dict = {
'Values': [
year, month, day, hour
],
'StorageDescriptor': {
'Location': part_location,
'InputFormat': input_format,
'OutputFormat': output_format,
'SerdeInfo': serde_info
}
}
input_list.append(input_dict.copy())
return input_list
步骤 3 - 调用 batch_create_partition() API
for each_input in break_list_into_chunks(partition_input_list, 100):
create_partition_response = client.batch_create_partition(
CatalogId=catalog_id,
DatabaseName=l_database,
TableName=l_table,
PartitionInputList=each_input
)
单个 api 调用中有 100 个分区的限制,因此如果您要创建超过 100 个分区,那么您需要将列表分成块并对其进行迭代。
这个问题很老,但我想提出来,有人可以 s3:ObjectCreated:Put
通知触发 Lambda 函数,该函数在数据到达 S3 时注册新分区。我什至会扩展此功能以处理基于对象删除等的弃用。这是 AWS 的博客 post,其中详细介绍了 S3 事件通知:https://aws.amazon.com/blogs/aws/s3-event-notification/
AWS Glue 最近添加了一个 RecrawlPolicy,它只抓取您添加到 S3 存储桶的新 folders/paritions。
https://docs.aws.amazon.com/glue/latest/dg/incremental-crawls.html
这应该可以帮助您尽量减少一次又一次地抓取所有数据。根据我的阅读,您可以在设置爬虫或编辑现有爬虫时定义增量爬网。但需要注意的一件事是,增量爬网要求新数据的架构与现有架构大致相同。
我有一个不断被新数据填充的 S3 存储桶,我正在使用 Athena 和 Glue 查询该数据,问题是如果 glue 不知道创建了一个新分区它就不会搜索它需要在那里搜索。如果我每次需要一个新分区时都对 运行 进行 API 调用,Glue 爬虫太昂贵了,所以最好的解决方案是告诉胶水添加了一个新分区,即创建一个新分区在其属性中 table。我查看了 AWS 文档但没有运气,我在 AWS 上使用 Java。有帮助吗?
您可以将胶水爬虫配置为每 5 分钟触发一次
您可以创建一个 lambda 函数,该函数将 运行 按计划进行,或者由您的存储桶中的事件(例如 putObject 事件)触发,并且该函数可以调用 athena 来发现分区:
import boto3 athena = boto3.client('athena') def lambda_handler(event, context): athena.start_query_execution( QueryString = "MSCK REPAIR TABLE mytable", ResultConfiguration = { 'OutputLocation': "s3://some-bucket/_athena_results" }
使用 Athena 手动添加分区。您还可以通过 API 运行 sql 查询,就像在我的 lambda 示例中一样。
示例来自 Athena manual:
ALTER TABLE orders ADD PARTITION (dt = '2016-05-14', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_14_May_2016' PARTITION (dt = '2016-05-15', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_15_May_2016';
您可能需要使用 batch_create_partition()
胶水 api 来注册新分区。它不需要任何昂贵的操作,如 MSCK REPAIR TABLE 或重新抓取。
我有一个类似的用例,为此我编写了一个 python 脚本来执行以下操作 -
第 1 步 - 获取 table 信息并从中解析注册分区所需的必要信息。
# Fetching table information from glue catalog
logger.info("Fetching table info for {}.{}".format(l_database, l_table))
try:
response = l_client.get_table(
CatalogId=l_catalog_id,
DatabaseName=l_database,
Name=l_table
)
except Exception as error:
logger.error("Exception while fetching table info for {}.{} - {}"
.format(l_database, l_table, error))
sys.exit(-1)
# Parsing table info required to create partitions from table
input_format = response['Table']['StorageDescriptor']['InputFormat']
output_format = response['Table']['StorageDescriptor']['OutputFormat']
table_location = response['Table']['StorageDescriptor']['Location']
serde_info = response['Table']['StorageDescriptor']['SerdeInfo']
partition_keys = response['Table']['PartitionKeys']
步骤 2 - 生成列表字典,其中每个列表包含创建单个分区的信息。所有列表都将具有相同的结构,但它们的分区特定值将发生变化(年、月、日、小时)
def generate_partition_input_list(start_date, num_of_days, table_location,
input_format, output_format, serde_info):
input_list = [] # Initializing empty list
today = datetime.utcnow().date()
if start_date > today: # To handle scenarios if any future partitions are created manually
start_date = today
end_date = today + timedelta(days=num_of_days) # Getting end date till which partitions needs to be created
logger.info("Partitions to be created from {} to {}".format(start_date, end_date))
for input_date in date_range(start_date, end_date):
# Formatting partition values by padding required zeroes and converting into string
year = str(input_date)[0:4].zfill(4)
month = str(input_date)[5:7].zfill(2)
day = str(input_date)[8:10].zfill(2)
for hour in range(24): # Looping over 24 hours to generate partition input for 24 hours for a day
hour = str('{:02d}'.format(hour)) # Padding zero to make sure that hour is in two digits
part_location = "{}{}/{}/{}/{}/".format(table_location, year, month, day, hour)
input_dict = {
'Values': [
year, month, day, hour
],
'StorageDescriptor': {
'Location': part_location,
'InputFormat': input_format,
'OutputFormat': output_format,
'SerdeInfo': serde_info
}
}
input_list.append(input_dict.copy())
return input_list
步骤 3 - 调用 batch_create_partition() API
for each_input in break_list_into_chunks(partition_input_list, 100):
create_partition_response = client.batch_create_partition(
CatalogId=catalog_id,
DatabaseName=l_database,
TableName=l_table,
PartitionInputList=each_input
)
单个 api 调用中有 100 个分区的限制,因此如果您要创建超过 100 个分区,那么您需要将列表分成块并对其进行迭代。
这个问题很老,但我想提出来,有人可以 s3:ObjectCreated:Put
通知触发 Lambda 函数,该函数在数据到达 S3 时注册新分区。我什至会扩展此功能以处理基于对象删除等的弃用。这是 AWS 的博客 post,其中详细介绍了 S3 事件通知:https://aws.amazon.com/blogs/aws/s3-event-notification/
AWS Glue 最近添加了一个 RecrawlPolicy,它只抓取您添加到 S3 存储桶的新 folders/paritions。
https://docs.aws.amazon.com/glue/latest/dg/incremental-crawls.html
这应该可以帮助您尽量减少一次又一次地抓取所有数据。根据我的阅读,您可以在设置爬虫或编辑现有爬虫时定义增量爬网。但需要注意的一件事是,增量爬网要求新数据的架构与现有架构大致相同。