使用 Zeppelin 和 Spark 处理大文本文件

Question

我正在尝试使用 Zeppelin (scala) 分析（实际可视化）来自大型文本文件（超过 50 GB）的一些数据。来自网络的示例使用具有已知 header 和每列数据类型的 csv 文件。在我的例子中，我有一行带有“”分隔符的纯数据。如何像下面的代码那样将我的数据放入 DataFrame 中？:

case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S。我想要列为“1”、“2”的数据框... 谢谢

Answer 1

您可以使用 csv:

spark.read.option("delimiter", ";").csv(inputPath)

使用 Zeppelin 和 Spark 处理大文本文件

Process large text file using Zeppelin and Spark

scala

bigdata

apache-spark

apache-zeppelin