如何用 scala 2.12 重建 apache Livy

Question

我正在使用使用 Scala 2.12 的 Spark 3.1.1，从 here 下载的预构建 Livy 使用 Scala 2.11（解压后可以找到名为 repl_2.11-jars/ 的文件夹）。

参考 Aliaksandr Sasnouskikh 制作的 comment，Livy 需要重建，否则即使在 POST 会话中也会抛出错误 {'msg': 'requirement failed: Cannot find Livy REPL jars.'}。

在README.md中提到：

By default Livy is built against Apache Spark 2.4.5

如果我想重建 Livy，我该如何更改构建它的 spark 版本？

提前致谢。

Answer 1

您可以在 Maven 中通过 spark-3.0 配置文件重建 Livy 以创建 spark 3 的自定义构建，例如：

git clone https://github.com/apache/incubator-livy.git && \
cd incubator-livy && \
mvn clean package -B -V -e \
        -Pspark-3.0 \
        -Pthriftserver \
        -DskipTests \
        -DskipITs \
        -Dmaven.javadoc.skip=true

此配置文件在pom.xml中定义，默认安装Spark 3.0.0。您可以更改它以使用不同的 spark 版本。

<profile>
      <id>spark-3.0</id>
      <activation>
        <property>
          <name>spark-3.0</name>
        </property>
      </activation>
      <properties>
        <spark.scala-2.12.version>3.0.0</spark.scala-2.12.version>
        <spark.scala-2.11.version>2.4.5</spark.scala-2.11.version>
        <spark.version>${spark.scala-2.11.version}</spark.version>
        <netty.spark-2.12.version>4.1.47.Final</netty.spark-2.12.version>
        <netty.spark-2.11.version>4.1.47.Final</netty.spark-2.11.version>
        <netty.version>${netty.spark-2.11.version}</netty.version>
        <java.version>1.8</java.version>
        <py4j.version>0.10.9</py4j.version>
        <json4s.spark-2.11.version>3.5.3</json4s.spark-2.11.version>
        <json4s.spark-2.12.version>3.6.6</json4s.spark-2.12.version>
        <json4s.version>${json4s.spark-2.11.version}</json4s.version>
        <spark.bin.download.url>
          https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
        </spark.bin.download.url>
        <spark.bin.name>spark-3.0.0-bin-hadoop2.7</spark.bin.name>
      </properties>
    </profile>

据我所知，Livy支持spark 3.0.x。但值得用 3.1.1 测试，让我们知道:)

Answer 2

我尝试根据 rmakoto 的回答为 Spark 3.1.1 构建 Livy，它成功了！我修改了很多东西，但我不记得我在 pom.xml 中编辑了什么，所以我只是附上我的要点 link here.

我还必须编辑 python-api/pom.xml 文件以使用 Python3 进行构建，因为在使用默认 pom.xml 文件构建时存在一些语法错误问题。这是 pom.xml gist for python-api.

之后只需使用

构建

mvn clean package -B -V -e \
        -Pspark-3.0 \
        -Pthriftserver \
        -DskipTests \
        -DskipITs \
        -Dmaven.javadoc.skip=true

Answer 3

基于@gamberooni 的更改（但使用 3.1.2 而不是 Spark 版本的 3.1.1 和 Hadoop 3.2.0 而不是 3.2.1），这是差异：

diff --git a/pom.xml b/pom.xml
index d2e535a..5c28ee6 100644
--- a/pom.xml
+++ b/pom.xml
@@ -79,12 +79,12 @@
 
   <properties>
     <asynchttpclient.version>2.10.1</asynchttpclient.version>
-    <hadoop.version>2.7.3</hadoop.version>
+    <hadoop.version>3.2.0</hadoop.version>
     <hadoop.scope>compile</hadoop.scope>
     <spark.scala-2.11.version>2.4.5</spark.scala-2.11.version>
-    <spark.scala-2.12.version>2.4.5</spark.scala-2.12.version>
-    <spark.version>${spark.scala-2.11.version}</spark.version>
-    <hive.version>3.0.0</hive.version>
+    <spark.scala-2.12.version>3.1.2</spark.scala-2.12.version>
+    <spark.version>${spark.scala-2.12.version}</spark.version>
+    <hive.version>3.1.2</hive.version>
     <commons-codec.version>1.9</commons-codec.version>
     <httpclient.version>4.5.3</httpclient.version>
     <httpcore.version>4.4.4</httpcore.version>
@@ -1060,7 +1060,7 @@
         </property>
       </activation>
       <properties>
-        <spark.scala-2.12.version>3.0.0</spark.scala-2.12.version>
+        <spark.scala-2.12.version>3.1.2</spark.scala-2.12.version>
         <spark.scala-2.11.version>2.4.5</spark.scala-2.11.version>
         <spark.version>${spark.scala-2.11.version}</spark.version>
         <netty.spark-2.12.version>4.1.47.Final</netty.spark-2.12.version>
@@ -1072,9 +1072,9 @@
         <json4s.spark-2.12.version>3.6.6</json4s.spark-2.12.version>
         <json4s.version>${json4s.spark-2.11.version}</json4s.version>
         <spark.bin.download.url>
-          https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
+          https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
         </spark.bin.download.url>
-        <spark.bin.name>spark-3.0.0-bin-hadoop2.7</spark.bin.name>
+        <spark.bin.name>spark-3.1.2-bin-hadoop3.2</spark.bin.name>
       </properties>
     </profile>
 
diff --git a/python-api/pom.xml b/python-api/pom.xml
index 8e5cdab..a8fb042 100644
--- a/python-api/pom.xml
+++ b/python-api/pom.xml
@@ -46,7 +46,7 @@
               <goal>exec</goal>
             </goals>
             <configuration>
-            <executable>python</executable>
+            <executable>python3</executable>
               <arguments>
                 <argument>setup.py</argument>
                 <argument>sdist</argument>
@@ -60,7 +60,7 @@
               <goal>exec</goal>
             </goals>
             <configuration>
-              <executable>python</executable>
+              <executable>python3</executable>
               <skip>${skipTests}</skip>
               <arguments>
                 <argument>setup.py</argument>

Answer 4

我将在此处添加其他选项：Lighter. This is Spark REST API hugely inspired by Livy and it is compatible and built with latest Spark versions. More info。

免责声明：我参与了它的开发。

如何用 scala 2.12 重建 apache Livy

How to rebuild apache Livy with scala 2.12

apache-spark

livy