使用 Zeppelin 和 Spark 处理大文本文件
Process large text file using Zeppelin and Spark
我正在尝试使用 Zeppelin (scala) 分析(实际可视化)来自大型文本文件(超过 50 GB)的一些数据。来自网络的示例使用具有已知 header 和每列数据类型的 csv 文件。在我的例子中,我有一行带有“”分隔符的纯数据。如何像下面的代码那样将我的数据放入 DataFrame 中?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
P.S。我想要列为“1”、“2”的数据框...
谢谢
您可以使用 csv:
spark.read.option("delimiter", ";").csv(inputPath)
我正在尝试使用 Zeppelin (scala) 分析(实际可视化)来自大型文本文件(超过 50 GB)的一些数据。来自网络的示例使用具有已知 header 和每列数据类型的 csv 文件。在我的例子中,我有一行带有“”分隔符的纯数据。如何像下面的代码那样将我的数据放入 DataFrame 中?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
P.S。我想要列为“1”、“2”的数据框... 谢谢
您可以使用 csv:
spark.read.option("delimiter", ";").csv(inputPath)