AWS Glue 搜索选项
AWS Glue Search Option
我目前正在使用 AWS Glue 数据目录来组织我的数据库。一旦我建立了连接并发送了我的爬虫来收集信息,我就能够看到制定的元数据。
如果能有一个功能,那就是能够在一个列名上搜索整个数据目录。例如,如果我的数据目录中有 5 个 table,而其中一个 table 恰好有一个字段 "age"。我希望能够看到 table.
我还想知道我是否可以在 AWS Glue 数据目录 table 中每列的 "comments" 字段上进行搜索
希望得到一些帮助!
您可以使用 AWS Glue API 做到这一点。例如,您可以使用 python SDK boto3
and get_tables()
方法来检索特定数据库中有关 table 的所有元信息。查看调用 get_tables()
返回的 Response Syntax 然后你只需要解析它,例如:
import boto3
glue_client = boto3.client('glue')
response = glue_client.get_tables(
DatabaseName='__SOME_NAME__'
)
for table in response['TableList']:
columns = table['StorageDescriptor']['Columns']
for col in columns:
col_name = col['Name']
col_comment = col['Comment']
# Here you do search for what you need
注意:如果你有一个table分区(人工列),那么你都需要搜索
columns_as_partitions = table['PartitionKeys']
for col in columns_as_partitions:
col_name = col['Name']
col_comment = col['Comment']
# Here you do search for what you need
我目前正在使用 AWS Glue 数据目录来组织我的数据库。一旦我建立了连接并发送了我的爬虫来收集信息,我就能够看到制定的元数据。
如果能有一个功能,那就是能够在一个列名上搜索整个数据目录。例如,如果我的数据目录中有 5 个 table,而其中一个 table 恰好有一个字段 "age"。我希望能够看到 table.
我还想知道我是否可以在 AWS Glue 数据目录 table 中每列的 "comments" 字段上进行搜索
希望得到一些帮助!
您可以使用 AWS Glue API 做到这一点。例如,您可以使用 python SDK boto3
and get_tables()
方法来检索特定数据库中有关 table 的所有元信息。查看调用 get_tables()
返回的 Response Syntax 然后你只需要解析它,例如:
import boto3
glue_client = boto3.client('glue')
response = glue_client.get_tables(
DatabaseName='__SOME_NAME__'
)
for table in response['TableList']:
columns = table['StorageDescriptor']['Columns']
for col in columns:
col_name = col['Name']
col_comment = col['Comment']
# Here you do search for what you need
注意:如果你有一个table分区(人工列),那么你都需要搜索
columns_as_partitions = table['PartitionKeys']
for col in columns_as_partitions:
col_name = col['Name']
col_comment = col['Comment']
# Here you do search for what you need