在 Apache Spark 中使用 R

Using R in Apache Spark

有一些选项可以访问 Spark 中的 R 库:

看起来 SparkR 非常有限,OpenCPU 需要保留额外的服务并且绑定可能存在稳定性问题。是否有其他特定于 Spark 架构的东西使得使用任何解决方案都不容易。

您有任何集成 R 和 Spark 的经验可以分享吗?

项目的主要语言似乎是一个重要因素。

If pyspark 是您使用 Spark 的好方法(意味着您正在从 Python 访问 Spark)通过 [=11 访问 R =] 与使用任何其他带有 C 扩展名的 Python 库应该没有太大区别。

有用户这样做的报告(尽管偶尔会有 or 等问题)

如果 R 是您的主要语言,那么帮助 SparkR 作者提供您认为存在限制的反馈或贡献将是一个不错的选择。

如果您的主要语言是 Scala,rscala 应该是您的第一个尝试。

虽然组合 pyspark + rpy2 看起来最 "established"(如 "uses the oldest and probably most-tried codebase"),但这并不一定意味着它是最好的解决方案(年轻的包可以快速发展).我会首先评估项目的首选语言是什么,然后从那里尝试各种选择。