在数据集上使用什么是正确的连接?
What would be correct join to use on the dataset?
我有两个数据集:
第一个数据集
Date Revenue Country Platform Application
2018-05-18 200 US Google XYZ
2018-05-18 100 US IOS XYZ
2018-05-18 200 AU Google XYZ
2018-05-18 100 US Amazon XYZ
第二个数据集
Date Platform Application Country ConversionRate
2018-05-18 Google XYZ US 0.56
2018-05-18 Amazon XYZ US 0.75
2018-05-18 Samsung XYZ US 0.26
2018-05-18 IOS XYZ US 0.45
我正在尝试为数据制定适当的连接。主要数据来自First Data set。我想要第二个数据集的转换率与第一个数据集的所有数据,并且应该根据日期以及应用程序、平台和国家/地区加入值。我已经尝试过 inner join 和 left join,但输出似乎不正确。感谢任何帮助。
我得到的输出:
Date Revenue Country Platform Application ConversionRate
2018-05-18 200 US Google XYZ 0.56
2018-05-18 200 US Google XYZ 0
2018-05-18 200 US Google XYZ 0
2018-05-18 200 US Google XYZ 0
特定应用程序(国家、平台等)在特定日期的转化率应该相同。即使 Google 平台存在多次,转化率也应该重复该次数。
解决了问题。正如我们可以在 SQL 中添加和条件一样,我们可以在 Google DataPrep 中执行此操作。这就是我遇到的问题。只需在连接操作期间添加多个列以进行检查,这似乎已经解决了问题。
我有两个数据集: 第一个数据集
Date Revenue Country Platform Application
2018-05-18 200 US Google XYZ
2018-05-18 100 US IOS XYZ
2018-05-18 200 AU Google XYZ
2018-05-18 100 US Amazon XYZ
第二个数据集
Date Platform Application Country ConversionRate
2018-05-18 Google XYZ US 0.56
2018-05-18 Amazon XYZ US 0.75
2018-05-18 Samsung XYZ US 0.26
2018-05-18 IOS XYZ US 0.45
我正在尝试为数据制定适当的连接。主要数据来自First Data set。我想要第二个数据集的转换率与第一个数据集的所有数据,并且应该根据日期以及应用程序、平台和国家/地区加入值。我已经尝试过 inner join 和 left join,但输出似乎不正确。感谢任何帮助。
我得到的输出:
Date Revenue Country Platform Application ConversionRate
2018-05-18 200 US Google XYZ 0.56
2018-05-18 200 US Google XYZ 0
2018-05-18 200 US Google XYZ 0
2018-05-18 200 US Google XYZ 0
特定应用程序(国家、平台等)在特定日期的转化率应该相同。即使 Google 平台存在多次,转化率也应该重复该次数。
解决了问题。正如我们可以在 SQL 中添加和条件一样,我们可以在 Google DataPrep 中执行此操作。这就是我遇到的问题。只需在连接操作期间添加多个列以进行检查,这似乎已经解决了问题。