运行 hadoop 和 mapreduce 上的 R 脚本

Running R script on hadoop and mapreduce

我有一个 R 脚本可以处理一堆推文,我想对相同的数据使用相同的脚本,但保存在 Hadoop 文件系统中。根据 this Hortonworks 教程,我可以使用 R 代码处理来自我的 HDFS 的数据,但不是很清楚。

我可以使用完全相同的 R 脚本,利用 mapreduce 范例,通过使用 Revolution R 吗?我应该更改我的代码还是有办法执行针对 Hadoop 架构优化的相同功能? 我的愿望是在像 R-Studio 这样的标准 R IDE 上编写我的代码,然后在我的云服务(例如 Microsoft Azure)上使用它,或者使用它的大部分,以 mapreduce 为基础。

是的,您可以 运行 通过使用特定于环境的计算上下文,跨不同数据平台的任何 R 脚本,从 Hadoop 到 Spark 再到 Teradata 和 SQL 服务器。

以下两个链接应该可以帮助您开始了解如何在 Hadoop 上使用 Revolution R / Microsoft R Server:

https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started

https://github.com/Azure/Azure-MachineLearning-DataScience/blob/master/Misc/MicrosoftR/Samples/NYCTaxi/NYC2013_MRS_LinearBinary.Rmd