如何将 println 输出转换为 Scala 中的数据帧
how to convert a println output to a dataframe in Scala
我有这段代码,它通过 for
生成列表,我寻找 println
的输出,将其传递给数据框,以便能够操纵由此产生的损坏,在 Scala 中。
for (l <- ListArchive){
val LastModified: (String, String) =(l,getLastModifiedLCO(l))
println(LastModified)
}
输出println (LCO_2014-12-09_3.XML.gz,Tue Dec 09 07:48:30 UTC 2014)
(LCO_2014-12-09_1.XML.gz,2014 年 12 月 9 日星期二 07:48:30 UTC)
重写生成一个list/sequence,然后变成DataFrame。像这样:
import spark.implicits._
val df = ListArchive.map(l => (l, getLastModifiedLCO(l)))
.toDF("col1Name", "col2Name")
如果列表很大,那么你可以尝试通过parallelize
把它变成一个RDD,然后对它应用类似的map
,但是它会运行分布式方式。
我有这段代码,它通过 for
生成列表,我寻找 println
的输出,将其传递给数据框,以便能够操纵由此产生的损坏,在 Scala 中。
for (l <- ListArchive){
val LastModified: (String, String) =(l,getLastModifiedLCO(l))
println(LastModified)
}
输出println (LCO_2014-12-09_3.XML.gz,Tue Dec 09 07:48:30 UTC 2014)
(LCO_2014-12-09_1.XML.gz,2014 年 12 月 9 日星期二 07:48:30 UTC)
重写生成一个list/sequence,然后变成DataFrame。像这样:
import spark.implicits._
val df = ListArchive.map(l => (l, getLastModifiedLCO(l)))
.toDF("col1Name", "col2Name")
如果列表很大,那么你可以尝试通过parallelize
把它变成一个RDD,然后对它应用类似的map
,但是它会运行分布式方式。