在 python 中断言 spark df 中特定单元格的值
Assert a value of a specific cell in spark df in python
在 pyspark 数据帧中断言特定单元格值的最简单方法是什么?
+---------+--------+
|firstname|lastname|
+---------+--------+
|James |Smith |
|Anna | null |
|Julia |Williams|
|Maria |Jones |
|Jen |Brown |
|Mike |Williams|
+---------+--------+
我想断言此数据框中各自的 rows/columns 中存在值 null 和“Jen”。
所以我可以使用类似的东西:
assert df['firstname'][4] == "Jen"
assert df['lastname'][1] == None
根据我的发现,使用 collect()
是方法(相当于 Pandas df 中的 iloc()):
assert df.collect()[4]['firstname'] == 'Jen'
assert df.collect()[1]['lastname'] is None
在 pyspark 数据帧中断言特定单元格值的最简单方法是什么?
+---------+--------+
|firstname|lastname|
+---------+--------+
|James |Smith |
|Anna | null |
|Julia |Williams|
|Maria |Jones |
|Jen |Brown |
|Mike |Williams|
+---------+--------+
我想断言此数据框中各自的 rows/columns 中存在值 null 和“Jen”。
所以我可以使用类似的东西:
assert df['firstname'][4] == "Jen"
assert df['lastname'][1] == None
根据我的发现,使用 collect()
是方法(相当于 Pandas df 中的 iloc()):
assert df.collect()[4]['firstname'] == 'Jen'
assert df.collect()[1]['lastname'] is None