在 Apache Spark 中使用 R

Using R in Apache Spark

有一些选项可以访问 Spark 中的 R 库：

直接使用sparkr
使用像 rpy2 or rscala
使用像 opencpu

看起来 SparkR 非常有限，OpenCPU 需要保留额外的服务并且绑定可能存在稳定性问题。是否有其他特定于 Spark 架构的东西使得使用任何解决方案都不容易。

您有任何集成 R 和 Spark 的经验可以分享吗？

项目的主要语言似乎是一个重要因素。

If pyspark 是您使用 Spark 的好方法（意味着您正在从 Python 访问 Spark）通过 [=11 访问 R =] 与使用任何其他带有 C 扩展名的 Python 库应该没有太大区别。

有用户这样做的报告（尽管偶尔会有 or 等问题）

如果 R 是您的主要语言，那么帮助 SparkR 作者提供您认为存在限制的反馈或贡献将是一个不错的选择。

如果您的主要语言是 Scala，rscala 应该是您的第一个尝试。

虽然组合 pyspark + rpy2 看起来最 "established"（如 "uses the oldest and probably most-tried codebase"），但这并不一定意味着它是最好的解决方案（年轻的包可以快速发展).我会首先评估项目的首选语言是什么，然后从那里尝试各种选择。

在 Apache Spark 中使用 R

Using R in Apache Spark

r

distributed-computing

rpy2

opencpu

apache-spark