GroupedData 的长度 "object of type 'GroupedData' has no len()"
Length of GroupedData "object of type 'GroupedData' has no len()"
我在计算分组数据的长度时遇到问题:
object of type 'GroupedData' has no len()
我在 PySpark 中有以下代码:
gb = df.groupBy('A_1')
l = len(gb)
print(l)
但是我得到了这个错误。如何计算 gb
的长度?
此代码可以 运行 与 pandas:
gb = df.groupby(['A_1'])
l = len(gb)
print(l)
但是在 PySpark 中,我遇到了问题。
问题出在 len
的使用上。您不能将它与 Spark 一起使用。
我想,您想使用 count
.
df = spark.range(10)
print(df.count())
# 10
groupBy
是“部分”步骤。之后没有聚合就不能做 groupBy。
如果您只是想计算不同“A_1”的数量,请执行:
df.select("A_1").distinct().count()
我在计算分组数据的长度时遇到问题:
object of type 'GroupedData' has no len()
我在 PySpark 中有以下代码:
gb = df.groupBy('A_1')
l = len(gb)
print(l)
但是我得到了这个错误。如何计算 gb
的长度?
此代码可以 运行 与 pandas:
gb = df.groupby(['A_1'])
l = len(gb)
print(l)
但是在 PySpark 中,我遇到了问题。
问题出在 len
的使用上。您不能将它与 Spark 一起使用。
我想,您想使用 count
.
df = spark.range(10)
print(df.count())
# 10
groupBy
是“部分”步骤。之后没有聚合就不能做 groupBy。
如果您只是想计算不同“A_1”的数量,请执行:
df.select("A_1").distinct().count()