从机器学习算法的角度看 h2o.ai 和 SparkMLlib 的区别

Difference between h2o.ai and SparkMLlib from Machine Learning algorithm point of view

目前,我正在使用 h2o.aiSparkMLlib 对机器学习库进行调查。我发现 h2o.ai 库支持的 ML 算法数量比 SparkMLlib 多,而且将 Spark 数据帧划分到训练和测试集似乎很困难(需要转换 spark 数据帧到 R/h2o 数据帧,这也是 time/resource 消耗)。

使用 h2o.ai 库而不是 SparkMLib 或者反之亦然 advantages/disadvantages 还有哪些? 我正在关注 h2o.aiSparkMLlib 到基于 R 的实现 (SparkR)。所以 h2o (as.h2o) 和 SparkMLlib (as.DataFrame) 的数据帧是不同的。

部分地,我使用以下链接找出答案:http://datasocial.onsocialengine.com/post/4171645/spark-mllib-or-h2o

这里有详细的对比分析:https://github.com/szilard/benchm-ml

基准测试结果幻灯片:https://speakerdeck.com/szilard/benchmarking-machine-learning-tools-for-scalability-speed-and-accuracy-la-ml-meetup-at-eharmony-june-2015

基准测试结果视频:https://vimeopro.com/eharmony/talks/video/132838730

机器学习库分析技术报告:https://github.com/chauhansaurabhb/Analysis-of-H2O-vs-SparkMLlib/blob/master/MLLibrary.pdf