Apache Spark (scala) + python/R 数据分析工作流程

Apache Spark (scala) + python/R work flow for data analysis

我想知道人们在用这个堆栈进行数据分析。我对 Spark Scala API 特别感兴趣,因为它似乎具有更新的功能,并且比 Spark 更 "natural"。

但是,我不确定一旦大数据被压缩运行压缩和缩减,关于数据可视化和探索的最佳实践是什么。

例如,我 运行 一个超过 20 亿条记录的 Spark 作业,现在我有一个由大约 10 万条记录组成的 Spark 数据框,其中一些结果我想绘制直方图、绘图并应用一些 ML , 在 python 或 R.

实现这两个世界之间握手的最佳方式是什么?将结果保存到文件? (如果是这样,最好的选择是什么,镶木地板,avro,json,csv?)将它保存到数据库中?

基本上我想知道其他人觉得使用类似堆栈最舒服的是什么。

在 spark 中转换或处理数据后,您可以考虑以下方法来可视化数据。

Apache zeppelin 用于交互式数据分析。

另一个选项是将Spark作业输出的结果存储在ElasticSearch中,我们可以使用Kibana进行可视化。