使用 Spark 2.2 版的 row_number() 函数在 PySpark DataFrame 中创建每行的行号

Question

我有一个 PySpark DataFrame -

valuesCol = [('Sweden',31),('Norway',62),('Iceland',13),('Finland',24),('Denmark',52)]
df = sqlContext.createDataFrame(valuesCol,['name','id'])
+-------+---+
|   name| id|
+-------+---+
| Sweden| 31|
| Norway| 62|
|Iceland| 13|
|Finland| 24|
|Denmark| 52|
+-------+---+

我想给这个DataFrame添加一个行列，就是该行的行号（序号），如下图-

我的最终输出应该是：

+-------+---+--------+
|   name| id|row_num |
+-------+---+--------+
| Sweden| 31|       1|
| Norway| 62|       2|
|Iceland| 13|       3|
|Finland| 24|       4|
|Denmark| 52|       5|
+-------+---+--------+

我的 Spark 版本是 2.2

我正在尝试此代码，但它不起作用 -

from pyspark.sql.functions import row_number
from pyspark.sql.window import Window
w = Window().orderBy()
df = df.withColumn("row_num", row_number().over(w))
df.show()

我遇到错误：

AnalysisException: 'Window function row_number() requires window to be ordered, please add ORDER BY clause. For example SELECT row_number()(value_expr) OVER (PARTITION BY window_partition ORDER BY window_ordering) from table;'

如果我理解正确，我需要对某些列进行排序，但我不想要这样的东西 w = Window().orderBy('id') 因为这会重新排序整个 DataFrame。

谁能建议如何使用 row_number() 函数实现上述输出？

Answer 1

您应该为订单子句定义列。如果您不需要订购值，请写一个虚拟值。试试下面；

from pyspark.sql.functions import row_number,lit
from pyspark.sql.window import Window
w = Window().orderBy(lit('A'))
df = df.withColumn("row_num", row_number().over(w))

Answer 2

我遇到了类似的问题，但就我而言，@Ali Yesilli 的解决方案失败了，因为我分别读取多个输入文件并最终将它们全部合并到一个数据框中。在这种情况下，window 中由虚拟变量排序的顺序被证明是不可预测的。

所以为了实现更稳健的排序，我使用了 monotonically_increasing_id:

df = df.withColumn('original_order', monotonically_increasing_id())
df = df.withColumn('row_num', row_number().over(Window.orderBy('original_order')))
df = df.drop('original_order')

使用 Spark 2.2 版的 row_number() 函数在 PySpark DataFrame 中创建每行的行号

Creating a row number of each row in PySpark DataFrame using row_number() function with Spark version 2.2

row-number

dataframe

pandas

apache-spark

pyspark