在Redshift集群中自动生成数据文档
Automatically generate data documentation in the Redshift cluster
我正在尝试在 Redshift 集群中为所有维护的数据产品自动生成数据文档,但我无法这样做。
有没有办法直接在 redshift 中 fetch/store 关于 tables/columns 的元数据?
是否还有一些自动方法可以确定 Redshift table 中的唯一键是什么?
例如,理想的解决方案是:
- Table 位置(集群、架构等)
- Table描述(table是干嘛的)
- 每列的描述(每列的用途、数据类型、是否是关键列、如果是什么类型等)
- 列的分布(最小值、最大值、中值、众数等)
- 在 table
中共同构成唯一条目的列
我完全理解自动获取描述几乎是不可能的,但我找不到直接将描述存储在 redshift 中的方法,相反我必须使用第 3 方解决方案或通常是外部文档SQL 脚本,由于数据产品现在的构建方式,我不是很喜欢。因此,如果有一种方法可以在 redshift 中存储每个 table's/column 的描述,我们将不胜感激。
Amazon Redshift 能够将 COMMENT
存储在:
- TABLE
- 列
- 约束
- 数据库
- 查看
您可以使用这些评论来存储描述。可能需要一些 table 加入才能访问。
我正在尝试在 Redshift 集群中为所有维护的数据产品自动生成数据文档,但我无法这样做。
有没有办法直接在 redshift 中 fetch/store 关于 tables/columns 的元数据?
是否还有一些自动方法可以确定 Redshift table 中的唯一键是什么?
例如,理想的解决方案是:
- Table 位置(集群、架构等)
- Table描述(table是干嘛的)
- 每列的描述(每列的用途、数据类型、是否是关键列、如果是什么类型等)
- 列的分布(最小值、最大值、中值、众数等)
- 在 table 中共同构成唯一条目的列
我完全理解自动获取描述几乎是不可能的,但我找不到直接将描述存储在 redshift 中的方法,相反我必须使用第 3 方解决方案或通常是外部文档SQL 脚本,由于数据产品现在的构建方式,我不是很喜欢。因此,如果有一种方法可以在 redshift 中存储每个 table's/column 的描述,我们将不胜感激。
Amazon Redshift 能够将 COMMENT
存储在:
- TABLE
- 列
- 约束
- 数据库
- 查看
您可以使用这些评论来存储描述。可能需要一些 table 加入才能访问。