在 python 中断言 spark df 中特定单元格的值

Assert a value of a specific cell in spark df in python

在 pyspark 数据帧中断言特定单元格值的最简单方法是什么?

+---------+--------+
|firstname|lastname|
+---------+--------+
|James    |Smith   |
|Anna     | null   |
|Julia    |Williams|
|Maria    |Jones   |
|Jen      |Brown   |
|Mike     |Williams|
+---------+--------+

我想断言此数据框中各自的 rows/columns 中存在值 null 和“Jen”。

所以我可以使用类似的东西:

assert df['firstname'][4] == "Jen"
assert df['lastname'][1] == None

根据我的发现,使用 collect() 是方法(相当于 Pandas df 中的 iloc()):

assert df.collect()[4]['firstname'] == 'Jen'
assert df.collect()[1]['lastname'] is None