在 Maven 项目中使用 HiveContext

Using HiveContext in Maven project

我已经使用 Maven 构建了 Spark-1.2.1,以使用以下命令启用 Hive 支持: mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -Phive -DskipTests clean package

这导致在 /spark-1.2.1/core/target/scala-2.10/classes 文件夹中生成了一些 class 文件

现在如何在我的 Eclipse + Maven 项目中使用这个新建的 Spark?我想在 Eclipse 中使用 Spark-SQL 的 HiveContext class。

当您打算在java程序中使用SparkSQL时,您只需将适当的依赖项添加到您的maven项目中,您就可以使用所需的类。使用 Hive 支持构建 Spark 使您能够在 Hive 支持下启动 Spark 守护进程。它生成一个需要复制到所有 spark worker 节点的程序集 jar。详情请见here

使 HiveContext 工作的 Maven 依赖项:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>1.2.1</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.10</artifactId>
    <version>1.2.1</version>
</dependency>
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-hive_2.10</artifactId>
    <version>1.2.1</version>
</dependency>