将 RDD[Row] 保存为 Scala 中的文件
Save RDD[Row] as file in scala
我制作了 RDD[Row] 数据(myData)并尝试将其保存为文件
myData.saveAsFile("path")
output
(a, 100, testcontenct)
(b, 200, Whosebug)
它运行良好,但由于它将被视为 csv,我需要删除“(”和“)”符号。
我的最终目标输出是
a, 100, testcontenct
b, 200, Whosebug
如何制作没有这些符号的输出文件。
您可以使用 databricks csv 库:https://github.com/databricks/spark-csv
我认为它只适用于数据帧,但您可以使用
轻松地将 RDD 转换为数据帧
import sqlContext.implicits._
val myDf = myData.toDF
然后用
将其写入文件
myDf.write
.format("com.databricks.spark.csv")
.save("path")
我制作了 RDD[Row] 数据(myData)并尝试将其保存为文件
myData.saveAsFile("path")
output
(a, 100, testcontenct)
(b, 200, Whosebug)
它运行良好,但由于它将被视为 csv,我需要删除“(”和“)”符号。 我的最终目标输出是
a, 100, testcontenct
b, 200, Whosebug
如何制作没有这些符号的输出文件。
您可以使用 databricks csv 库:https://github.com/databricks/spark-csv
我认为它只适用于数据帧,但您可以使用
轻松地将 RDD 转换为数据帧import sqlContext.implicits._
val myDf = myData.toDF
然后用
将其写入文件myDf.write
.format("com.databricks.spark.csv")
.save("path")