text2vec与RHadoop的兼容性
The compatibility between text2vec and RHadoop
目前在AWS EC2(单实例)中使用text2vec处理大数据集,以后文本数据会越来越大,可能会尝试RHadoop(MapReduce)架构,不知道行不行可以兼容 text2vec 和 RHadoop(MapReduce)。
简短的回答是肯定的——如果你真的想要,你可以用 RHadoop 做任何事情。但我敢肯定,付出的努力将是巨大的,而且您可能不会对结果感到满意。
回到真正的问题。值得尝试 text2vec 版本 0.5(上周发布)——它比以前消耗更少的内存。您还可以轻松地并行处理数据块。例如检查 this vignette。
另一件事是,对于分类等基本任务,您通常不需要 RAM 中的所有数据。例如,您可以检查另一个我的包 - FTRL 以增量地使用 SGD 拟合逻辑回归(带有 L1/L2/elasticnet 惩罚)。
很高兴收到您关于 github 内存问题的报告(这实际上来自 Matrix
包)。
PS 树方法和集成通常不适用于稀疏的高维数据。
目前在AWS EC2(单实例)中使用text2vec处理大数据集,以后文本数据会越来越大,可能会尝试RHadoop(MapReduce)架构,不知道行不行可以兼容 text2vec 和 RHadoop(MapReduce)。
简短的回答是肯定的——如果你真的想要,你可以用 RHadoop 做任何事情。但我敢肯定,付出的努力将是巨大的,而且您可能不会对结果感到满意。
回到真正的问题。值得尝试 text2vec 版本 0.5(上周发布)——它比以前消耗更少的内存。您还可以轻松地并行处理数据块。例如检查 this vignette。
另一件事是,对于分类等基本任务,您通常不需要 RAM 中的所有数据。例如,您可以检查另一个我的包 - FTRL 以增量地使用 SGD 拟合逻辑回归(带有 L1/L2/elasticnet 惩罚)。
很高兴收到您关于 github 内存问题的报告(这实际上来自 Matrix
包)。
PS 树方法和集成通常不适用于稀疏的高维数据。