运行 hadoop 和 mapreduce 上的 R 脚本

Running R script on hadoop and mapreduce

我有一个 R 脚本可以处理一堆推文，我想对相同的数据使用相同的脚本，但保存在 Hadoop 文件系统中。根据 this Hortonworks 教程，我可以使用 R 代码处理来自我的 HDFS 的数据，但不是很清楚。

我可以使用完全相同的 R 脚本，利用 mapreduce 范例，通过使用 Revolution R 吗？我应该更改我的代码还是有办法执行针对 Hadoop 架构优化的相同功能？我的愿望是在像 R-Studio 这样的标准 R IDE 上编写我的代码，然后在我的云服务（例如 Microsoft Azure）上使用它，或者使用它的大部分，以 mapreduce 为基础。

是的，您可以运行通过使用特定于环境的计算上下文，跨不同数据平台的任何 R 脚本，从 Hadoop 到 Spark 再到 Teradata 和 SQL 服务器。

以下两个链接应该可以帮助您开始了解如何在 Hadoop 上使用 Revolution R / Microsoft R Server：

https://msdn.microsoft.com/en-us/microsoft-r/scaler-hadoop-getting-started

https://github.com/Azure/Azure-MachineLearning-DataScience/blob/master/Misc/MicrosoftR/Samples/NYCTaxi/NYC2013_MRS_LinearBinary.Rmd

运行 hadoop 和 mapreduce 上的 R 脚本

Running R script on hadoop and mapreduce

hadoop

r

mapreduce

azure

revolution-r