Saving/Exporting Spark SQL Zeppelin 查询的结果
Saving/Exporting the results of a Spark SQL Zeppelin query
我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些我们想要 运行 的查询,这些查询有大量返回的结果,我们想 运行 在 zeppelin 中查询但保存结果(显示限制为 1000) .有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶?
我设法制作了一个笔记本,它使用 scala 解释器有效地完成了我想要的事情。
z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")
df.repartition(1).write
.format("com.databricks.spark.csv")
.option("header", "true")
.save("s3://amazon.bucket.com/csv_output/")
值得一提的是,z.load 函数有一天似乎对我有用,但后来我又试了一次,出于某种原因,我不得不在它自己的段落中用 %dep 解释器声明它,然后标准 Scala 解释器中的剩余代码
我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些我们想要 运行 的查询,这些查询有大量返回的结果,我们想 运行 在 zeppelin 中查询但保存结果(显示限制为 1000) .有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶?
我设法制作了一个笔记本,它使用 scala 解释器有效地完成了我想要的事情。
z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")
df.repartition(1).write
.format("com.databricks.spark.csv")
.option("header", "true")
.save("s3://amazon.bucket.com/csv_output/")
值得一提的是,z.load 函数有一天似乎对我有用,但后来我又试了一次,出于某种原因,我不得不在它自己的段落中用 %dep 解释器声明它,然后标准 Scala 解释器中的剩余代码