从单个 csv 文件在 Hadoop Hive 中创建星型模式(维度和事实 Table)
Creating Star Schema (Dimensions and Fact Table) in Hadoop Hive from a single csv file
我对 Datawarehouse、OLAP 和 Hive 完全陌生。我确实有一个 csv 文件,其中包含有关 ebay 等在线市场的培训数据(请参阅列数据)。我的任务是在配置单元中创建星型模式(通过 Data Analytics Studio、Spark 或其他)。
我搭建的维度如下:
我如何创建这些维度表,尤其是为每一行生成一个新的 ID?
我在另一个教程中找到的 SELECT New_Guid(), listing_title, listing_subtitle, listing_type_code, start_price, buy_it_now_price, buy_it_now_listed_flag, qty_available_per_listing From auctions
。但是 New_Guid()
在我的 Data Analytics Studio 中根本不起作用。
非常感谢!
假设维度没有历史,维度设计好不好暂且不谈:
对于每个必需的维度:
- 读取 csv 并提取应用不同的相关字段 temp_table
- 使用
select (row_number() over()), Col1, Col2, col3, col4 from temp_table
为每一行添加一个序列号并坚持到 dimension_table
事实table:
- 读取 csv 并提取相关字段并应用于 temp_table
- 使用
select (row_number() over()), Col1, Col2, col3, col4 from temp_table
为每一行添加一个序列号并存储在另一个 temp_table_2
- 使用来自 temp_table_2 的适当语句加入维度查找/选择给出 temp_table_3
的序列号
- 仅插入从 temp_table_3 到 fact_table
的密钥
我对 Datawarehouse、OLAP 和 Hive 完全陌生。我确实有一个 csv 文件,其中包含有关 ebay 等在线市场的培训数据(请参阅列数据)。我的任务是在配置单元中创建星型模式(通过 Data Analytics Studio、Spark 或其他)。
我搭建的维度如下:
我如何创建这些维度表,尤其是为每一行生成一个新的 ID?
我在另一个教程中找到的 SELECT New_Guid(), listing_title, listing_subtitle, listing_type_code, start_price, buy_it_now_price, buy_it_now_listed_flag, qty_available_per_listing From auctions
。但是 New_Guid()
在我的 Data Analytics Studio 中根本不起作用。
非常感谢!
假设维度没有历史,维度设计好不好暂且不谈:
对于每个必需的维度:
- 读取 csv 并提取应用不同的相关字段 temp_table
- 使用
select (row_number() over()), Col1, Col2, col3, col4 from temp_table
为每一行添加一个序列号并坚持到 dimension_table
事实table:
- 读取 csv 并提取相关字段并应用于 temp_table
- 使用
select (row_number() over()), Col1, Col2, col3, col4 from temp_table
为每一行添加一个序列号并存储在另一个 temp_table_2 - 使用来自 temp_table_2 的适当语句加入维度查找/选择给出 temp_table_3 的序列号
- 仅插入从 temp_table_3 到 fact_table 的密钥