Apache Spark (scala) + python/R 数据分析工作流程

Apache Spark (scala) + python/R work flow for data analysis

我想知道人们在用这个堆栈进行数据分析。我对 Spark Scala API 特别感兴趣，因为它似乎具有更新的功能，并且比 Spark 更 "natural"。

但是，我不确定一旦大数据被压缩运行压缩和缩减，关于数据可视化和探索的最佳实践是什么。

例如，我运行一个超过 20 亿条记录的 Spark 作业，现在我有一个由大约 10 万条记录组成的 Spark 数据框，其中一些结果我想绘制直方图、绘图并应用一些 ML , 在 python 或 R.

实现这两个世界之间握手的最佳方式是什么？将结果保存到文件？（如果是这样，最好的选择是什么，镶木地板，avro，json，csv？）将它保存到数据库中？

基本上我想知道其他人觉得使用类似堆栈最舒服的是什么。

在 spark 中转换或处理数据后，您可以考虑以下方法来可视化数据。

Apache zeppelin 用于交互式数据分析。

另一个选项是将Spark作业输出的结果存储在ElasticSearch中，我们可以使用Kibana进行可视化。