PySpark——将行列表转换为数据框
PySpark -- Convert List of Rows to Data Frame
我 实际上 试图解决的问题是获取 PySpark 数据帧的 first/last N 行,并将结果作为数据帧。具体来说,我希望能够做这样的事情:
my_df.head(20).toPandas()
但是,因为 head()
return 是一个行列表,所以我得到这个错误:
AttributeError: 'list' object has no attribute 'toPandas'
因此,我正在寻找将 return PySpark 数据帧的前 N 行 作为数据帧 的方法,或者寻找一种方法来转换这些列表行到数据框中。有什么想法吗?
与limit
:
>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
_1 _2
0 a 1
与 pd.DataFrame
:
>>> pd.DataFrame(df.head(1), columns=df.columns)
_1 _2
0 a 1
我 实际上 试图解决的问题是获取 PySpark 数据帧的 first/last N 行,并将结果作为数据帧。具体来说,我希望能够做这样的事情:
my_df.head(20).toPandas()
但是,因为 head()
return 是一个行列表,所以我得到这个错误:
AttributeError: 'list' object has no attribute 'toPandas'
因此,我正在寻找将 return PySpark 数据帧的前 N 行 作为数据帧 的方法,或者寻找一种方法来转换这些列表行到数据框中。有什么想法吗?
与limit
:
>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
_1 _2
0 a 1
与 pd.DataFrame
:
>>> pd.DataFrame(df.head(1), columns=df.columns)
_1 _2
0 a 1