使用数据阶段减少数据
Reducing data with data stage
有人要求我使用 Data Stage ETL 减少现有数据模型。
它更像是一种练习,也是一种了解这个我很陌生的程序的方式。
当然,数据会按照一些功能规则进行缩减。
Table : MEMBERSHIP (..,A,B,C) # 其中 A,B,C 是不同的属性(我们的过滤器)
正在将数据从 ~700k 行减少到 7k 行左右。
我正在考虑保持与数据源中相同的百分比。
因此,如果我们有 70% 的 A、20% 的 B 和 10% 的 C,我们在简化版本上的百分比几乎相同。
我正在寻找这样做的最佳方式和使用的内部工具(可能与聚合器阶段一起使用?)。
有没有办法用 DataStage 做一些类似于 PL 的脚本?
我希望我已经足够清楚了。如果您有任何建议,我将不胜感激。
谢谢大家。
~Whitoo
Datastage 不会按百分比进行缩减
你可以做的是使用transformer stage 或filter stage 根据特定条件从源中过滤出数据。但正如我所说,条件必须非常具体。 (例如 - select 仅那些具有 A = [somevalue] 或 A not= [somevalue] 的记录)
DataStage PX 具有采样阶段,允许您指定希望采样的数据百分比:http://datastage4you.blogspot.com/2014/01/sample-stage-in-datastage.html。
有人要求我使用 Data Stage ETL 减少现有数据模型。 它更像是一种练习,也是一种了解这个我很陌生的程序的方式。
当然,数据会按照一些功能规则进行缩减。
Table : MEMBERSHIP (..,A,B,C) # 其中 A,B,C 是不同的属性(我们的过滤器)
正在将数据从 ~700k 行减少到 7k 行左右。
我正在考虑保持与数据源中相同的百分比。 因此,如果我们有 70% 的 A、20% 的 B 和 10% 的 C,我们在简化版本上的百分比几乎相同。
我正在寻找这样做的最佳方式和使用的内部工具(可能与聚合器阶段一起使用?)。 有没有办法用 DataStage 做一些类似于 PL 的脚本? 我希望我已经足够清楚了。如果您有任何建议,我将不胜感激。
谢谢大家。
~Whitoo
Datastage 不会按百分比进行缩减
你可以做的是使用transformer stage 或filter stage 根据特定条件从源中过滤出数据。但正如我所说,条件必须非常具体。 (例如 - select 仅那些具有 A = [somevalue] 或 A not= [somevalue] 的记录)
DataStage PX 具有采样阶段,允许您指定希望采样的数据百分比:http://datastage4you.blogspot.com/2014/01/sample-stage-in-datastage.html。