AWS Glue 搜索选项

AWS Glue Search Option

我目前正在使用 AWS Glue 数据目录来组织我的数据库。一旦我建立了连接并发送了我的爬虫来收集信息,我就能够看到制定的元数据。

如果能有一个功能,那就是能够在一个列名上搜索整个数据目录。例如,如果我的数据目录中有 5 个 table,而其中一个 table 恰好有一个字段 "age"。我希望能够看到 table.

我还想知道我是否可以在 AWS Glue 数据目录 table 中每列的 "comments" 字段上进行搜索

希望得到一些帮助!

您可以使用 AWS Glue API 做到这一点。例如,您可以使用 python SDK boto3 and get_tables() 方法来检索特定数据库中有关 table 的所有元信息。查看调用 get_tables() 返回的 Response Syntax 然后你只需要解析它,例如:

import boto3

glue_client = boto3.client('glue')

response = glue_client.get_tables(
    DatabaseName='__SOME_NAME__'
)

for table in response['TableList']:
    columns = table['StorageDescriptor']['Columns']
    for col in columns:
        col_name = col['Name']
        col_comment = col['Comment']

        # Here you do search for what you need

注意:如果你有一个table分区(人工列),那么你都需要搜索

columns_as_partitions = table['PartitionKeys']
for col in columns_as_partitions:
    col_name = col['Name']
    col_comment = col['Comment']

    # Here you do search for what you need