如何将 println 输出转换为 Scala 中的数据帧

how to convert a println output to a dataframe in Scala

我有这段代码,它通过 for 生成列表,我寻找 println 的输出,将其传递给数据框,以便能够操纵由此产生的损坏,在 Scala 中。

for (l <- ListArchive){  
     val LastModified: (String, String) =(l,getLastModifiedLCO(l))
     println(LastModified)
  }

输出println (LCO_2014-12-09_3.XML.gz,Tue Dec 09 07:48:30 UTC 2014) (LCO_2014-12-09_1.XML.gz,2014 年 12 月 9 日星期二 07:48:30 UTC)

重写生成一个list/sequence,然后变成DataFrame。像这样:

import spark.implicits._
val df = ListArchive.map(l => (l, getLastModifiedLCO(l)))
  .toDF("col1Name", "col2Name")

如果列表很大,那么你可以尝试通过parallelize把它变成一个RDD,然后对它应用类似的map,但是它会运行分布式方式。