如何在 Spark 中进行文本分析

How to do text analysis in Spark

我对 Hadoop 非常熟悉，但对 Apache Spark 完全陌生。目前我正在使用 Mahout 中实现的 LDA（Latent Dirichlet Allocation）算法来进行主题发现。但是，由于我需要使过程更快，所以我想使用 spark，但是 Spark MLib 中未实现 LDA（或 CVB）算法。这是否意味着我必须自己从头开始实施？如果是这样，Spark 是否提供了一些使其更容易的工具？

LDA 最近被添加到 Spark 中。它不是当前 1.2.1 版本的一部分。

然而，您可以在当前的 SNAPSHOT 版本中找到示例：LDAExample.scala

您还可以阅读有关 SPARK-1405 issue 的有趣信息。

那我该如何使用呢？

在未发布的情况下，最简单的方法可能是将以下内容复制到您的项目中类，就像您自己编写代码一样：

实际上 Spark 1.3.0 现已发布，因此 LDA 可用！！

c.f。 https://issues.apache.org/jira/browse/SPARK-1405

此致，

关于如何在 1.3 中使用新的 Spark LDA API：

这是一篇描述新 API 的文章：Topic modeling with LDA: MLlib meets GraphX

并且，它链接到显示如何向量化文本输入的示例代码：Github LDA Example

如何在 Spark 中进行文本分析

How to do text analysis in Spark

hadoop

mapreduce

apache-spark

apache-spark-mllib

那我该如何使用呢？