将 PySpark DataFrame 转换回行
Convert PySpark DataFrame back to rows
我有一些现有代码依赖于连续的数据:ala:
[u'0,1,1,5,0,1382,4,15]
为了进行一些转换,我不得不将我的 RDD 转换为数据帧 sp,它现在看起来像这样:
行(a=u'1',code=u'ts=12206384',date=u'2014-10-05',cstat='200','substat'=0,',时间=0, 时间=u'00:06:18' 目标=0)]
是否可以将 spark DF 转换回其原始行格式,以便我的其余代码能够正常工作?
我假设你的意思是你想从一个 Row
对象返回到一个逗号分隔值的字符串。
您将获取包含 Row
个对象的数据框并执行以下操作:
df_of_row_objects.map(lambda row: ",".join(x for x in row))
此代码遍历数据框中的每个 Row
并用逗号连接行中的每个项目。
我有一些现有代码依赖于连续的数据:ala: [u'0,1,1,5,0,1382,4,15]
为了进行一些转换,我不得不将我的 RDD 转换为数据帧 sp,它现在看起来像这样:
行(a=u'1',code=u'ts=12206384',date=u'2014-10-05',cstat='200','substat'=0,',时间=0, 时间=u'00:06:18' 目标=0)]
是否可以将 spark DF 转换回其原始行格式,以便我的其余代码能够正常工作?
我假设你的意思是你想从一个 Row
对象返回到一个逗号分隔值的字符串。
您将获取包含 Row
个对象的数据框并执行以下操作:
df_of_row_objects.map(lambda row: ",".join(x for x in row))
此代码遍历数据框中的每个 Row
并用逗号连接行中的每个项目。