用于存储有关表格、表格来源和 DWH 的 ETL 信息的工具
Tool for storing infromation about tables, their sources and ETL for DWH
我正在寻找用于为我的 DWH 存储有关表、数据源、etl 进程等的文档的工具。
我在 youtube 上看过一些介绍,但我发现,大多数公司都在使用自定义的、自己的系统或类似 wiki 的纯文本描述。
我认为,对于分析师、经理和其他用户来说,找出他们需要什么以及如何使用数据来计算适合他们的统计数据并不是很有用。
拜托,你能建议我用什么来处理这个案子吗?我必须阅读什么?
虽然 Airflow 是用一些 support for Apache-Atlas 烘焙的,但在我看来
目前最好的 data-lake 元数据管理工具之一 是 Lyft's Amundsen
他们也发布了lyft/amundsendatabuilder
,介绍说
Amundsen Databuilder is a data ingestion library, which is inspired by
Apache Gobblin. It could be used in an orchestration
framework(e.g. Apache Airflow) to build data from Amundsen. You could
use the library either with an adhoc python script(example) or
inside an Apache Airflow DAG(example).
我正在寻找用于为我的 DWH 存储有关表、数据源、etl 进程等的文档的工具。 我在 youtube 上看过一些介绍,但我发现,大多数公司都在使用自定义的、自己的系统或类似 wiki 的纯文本描述。 我认为,对于分析师、经理和其他用户来说,找出他们需要什么以及如何使用数据来计算适合他们的统计数据并不是很有用。 拜托,你能建议我用什么来处理这个案子吗?我必须阅读什么?
虽然 Airflow 是用一些 support for Apache-Atlas 烘焙的,但在我看来
目前最好的 data-lake 元数据管理工具之一 是 Lyft's Amundsen
他们也发布了
lyft/amundsendatabuilder
,介绍说Amundsen Databuilder is a data ingestion library, which is inspired by Apache Gobblin. It could be used in an orchestration framework(e.g. Apache Airflow) to build data from Amundsen. You could use the library either with an adhoc python script(example) or inside an Apache Airflow DAG(example).