Cloud Dataprep - 用中间数据集的值替换代码或 ID

Cloud Dataprep - Replace code or id with value with middle dataset

我真的是 GCP dataprep 的新手,现在正在尝试创建一个配方,但我不知道如何做。

总而言之,我有 2 个文件,第一个包含此列: 名称,CONTRY_CODE, ...

第二个是: COUNTRY_CODE、COUNTRY_NAME

如何用第二个数据集的 COUNTRY_NAME 替换第一个数据集中的 COUNTRY_CODE (匹配对应的COUNTRY_CODE)?.

提前致谢!

对于任何试图制作此类东西的人。您可以使用 Dataprep 中的 Lookup 属性 来实现!

只需 select 您要更改的列(在我的例子中 COUNTRY_CODE),然后 select Lookup -> 选择一个数据集(在我的例子中是第二个)。它将按预期替换它!

虽然查找答案会正常工作,但 JOIN 选项可能是扩展性更好的解决方案,因为它支持远程端的多列,显示匹配率,允许模糊匹配,以及很多其他好东西(比如忽略比赛中的空格)。您还可以选择连接类型来控制输出行和缺失行的处理方式。

从语义上讲,这两个选项并没有太大区别,我也没有看到真正的性能差异 — 但我已经能够通过使用这样的 Join 来简化其中的一些操作: