pyspark 中等效的行 ID 是什么?
what is the row id equivalent in pyspark?
在我们遗留的 DWH 流程中,我们根据传统 RDBMS 中的 rowid 查找重复记录并跟踪重复记录。
例如。
select pkey_columns, max(rowdid) from table group by pkey_columns
将return只对应最大记录的重复记录。即使我们识别出重复记录,这也有助于 identifying/tracking 记录。
pySpark 中是否有等效项?这在 dwh 到 pyspark dwh 翻译项目中是如何处理的?
我建议你使用解析函数库,也许
ROW_NUMBER()
OVER( PARTITION BY group pkey_columns
ORDER BY sort columns)
在我们遗留的 DWH 流程中,我们根据传统 RDBMS 中的 rowid 查找重复记录并跟踪重复记录。
例如。
select pkey_columns, max(rowdid) from table group by pkey_columns
将return只对应最大记录的重复记录。即使我们识别出重复记录,这也有助于 identifying/tracking 记录。
pySpark 中是否有等效项?这在 dwh 到 pyspark dwh 翻译项目中是如何处理的?
我建议你使用解析函数库,也许
ROW_NUMBER()
OVER( PARTITION BY group pkey_columns
ORDER BY sort columns)