AWS glue 中的数据类别包含什么?
What does data category contain in AWS glue?
我正在通过 aws glue
将数据爬取到数据目录。但是我对数据库定义有点困惑。根据我在 aws doc 中可以找到的内容,A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.
。我想知道数据库到底包含什么。它是否从其他数据源加载所有数据并在其上创建目录?还是只包含目录?我如何知道 glue 数据库中 tables 的大小?它使用什么类型的数据库,例如 nosql
、rds
?
例如,我创建了一个爬虫来从s3
加载数据,并在glue
中创建了一个目录table。 glue
table 是否包括来自 s3 bucket
的所有数据?如果我删除 s3
存储桶,它会影响 glue 中针对爬虫创建的目录 table 运行的其他作业吗?
如果目录 table 只包含数据模式,如果我的数据源被修改,我如何才能使它更新到数据?
目录只是一个元数据存储。它的任务是记录其他地方的数据,并将其导出到其他工具,如 Athena 或 EMR,以便他们可以发现数据。
数据没有复制到目录中,而是保留在源中。如果从目录中删除 table,原始数据将保持不变。
如果您删除原始数据(如您在问题中所述),其他服务将无法再访问该数据,因为它已被删除。如果您再次 运行 爬虫,它应该会检测到它不存在。
如果要使爬虫架构保持最新,您可以安排自动 运行 爬虫,或者在数据更改时按需执行。当爬虫再次 运行 时,它会相应地更新记录数、分区数,甚至架构中的更改。请参阅 the documentation 以了解架构更改可能对您的目录产生的影响。
我正在通过 aws glue
将数据爬取到数据目录。但是我对数据库定义有点困惑。根据我在 aws doc 中可以找到的内容,A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.
。我想知道数据库到底包含什么。它是否从其他数据源加载所有数据并在其上创建目录?还是只包含目录?我如何知道 glue 数据库中 tables 的大小?它使用什么类型的数据库,例如 nosql
、rds
?
例如,我创建了一个爬虫来从s3
加载数据,并在glue
中创建了一个目录table。 glue
table 是否包括来自 s3 bucket
的所有数据?如果我删除 s3
存储桶,它会影响 glue 中针对爬虫创建的目录 table 运行的其他作业吗?
如果目录 table 只包含数据模式,如果我的数据源被修改,我如何才能使它更新到数据?
目录只是一个元数据存储。它的任务是记录其他地方的数据,并将其导出到其他工具,如 Athena 或 EMR,以便他们可以发现数据。
数据没有复制到目录中,而是保留在源中。如果从目录中删除 table,原始数据将保持不变。
如果您删除原始数据(如您在问题中所述),其他服务将无法再访问该数据,因为它已被删除。如果您再次 运行 爬虫,它应该会检测到它不存在。
如果要使爬虫架构保持最新,您可以安排自动 运行 爬虫,或者在数据更改时按需执行。当爬虫再次 运行 时,它会相应地更新记录数、分区数,甚至架构中的更改。请参阅 the documentation 以了解架构更改可能对您的目录产生的影响。