Word2Vec Spark 实现是分布式的吗?

Is the Word2Vec Spark implementation distributed?

我对 Spark 比较陌生,理解 Spark ML 有一些困难。

我遇到的问题是我有 3TB 的文本,我想在其上训练 Word2Vec 模型。我 运行 使用的服务器有大约 1TB 的内存,所以我暂时无法保存文件。

文件保存为我导入到 Spark 中的镶木地板。我的问题是 Spark ML 库是否分发 Word2Vec 培训?如果是这样,在处理这么大的文本文件时我需要担心什么吗?如果没有,是否可以在训练 Word2Vec 时流式传输这些数据?

从这个 https://github.com/apache/spark/pull/1719 已经在 2014 年,您可以了解到并行处理是可能的 - 每个分区。

Quote:

To make our implementation more scalable, we train each partition separately and merge the model of each partition after each iteration. To make the model more accurate, multiple iterations may be needed.

但是你必须有分区数据。