使用 Zeppelin 和 Spark 处理大文本文件

Process large text file using Zeppelin and Spark

我正在尝试使用 Zeppelin (scala) 分析(实际可视化)来自大型文本文件(超过 50 GB)的一些数据。来自网络的示例使用具有已知 header 和每列数据类型的 csv 文件。在我的例子中,我有一行带有“”分隔符的纯数据。如何像下面的代码那样将我的数据放入 DataFrame 中?:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S。我想要列为“1”、“2”的数据框... 谢谢

您可以使用 csv:

spark.read.option("delimiter", ";").csv(inputPath)