SBT 测试不适用于火花测试

SBT test does not work for spark test

我有一个简单的 spark 函数来测试 DF 窗口:

    import org.apache.spark.sql.{DataFrame, SparkSession}

    object ScratchPad {

      def main(args: Array[String]): Unit = {
        val spark = SparkSession.builder().master("local[*]").getOrCreate()
        spark.sparkContext.setLogLevel("ERROR")
        get_data_frame(spark).show()
      }

      def get_data_frame(spark: SparkSession): DataFrame = {
        import spark.sqlContext.implicits._
        val hr = spark.sparkContext.parallelize(List(
          ("Steinbeck", "Sales", 100),
          ("Woolf", "IT", 99),
          ("Wodehouse", "Sales", 250),
          ("Hemingway", "IT", 349)
        )
        ).toDF("emp", "dept", "sal")

        import org.apache.spark.sql.expressions.Window
        import org.apache.spark.sql.functions._

        val windowspec = Window.partitionBy($"dept").orderBy($"sal".desc)


        hr.withColumn("rank", row_number().over(windowspec))

      }
    }

我写了一个这样的测试:

    import com.holdenkarau.spark.testing.DataFrameSuiteBase
    import org.apache.spark.sql.Row
    import org.apache.spark.sql.types._
    import org.scalatest.FunSuite

    class TestDF extends FunSuite with DataFrameSuiteBase  {

      test ("DFs equal") {
        val expected=sc.parallelize(List(
          Row("Wodehouse","Sales",250,1),
          Row("Steinbeck","Sales",100,2),
          Row("Hemingway","IT",349,1),
          Row("Woolf","IT",99,2)
        ))

        val schema=StructType(
          List(
          StructField("emp",StringType,true),
          StructField("dept",StringType,true),
          StructField("sal",IntegerType,false),
          StructField("rank",IntegerType,true)
          )
        )

        val e2=sqlContext.createDataFrame(expected,schema)
        val actual=ScratchPad.get_data_frame(sqlContext.sparkSession)
        assertDataFrameEquals(e2,actual)
      }

}

当我在 intellij 中右键单击 class 并单击 "run" 时工作正常。 当我 运行 与 "sbt test" 进行相同的测试时,它失败并显示以下内容:

    java.security.AccessControlException: access denied 
    org.apache.derby.security.SystemPermission( "engine", 
    "usederbyinternals" )
        at java.security.AccessControlContext.checkPermission(AccessControlContext.java:472)
        at java.security.AccessController.checkPermission(AccessController.java:884)
        at org.apache.derby.iapi.security.SecurityUtil.checkDerbyInternalsPrivilege(Unknown Source)
        ...

这是我的 SBT 脚本,没有什么特别的 - 必须放入配置单元依赖项,否则测试将无法编译:

    name := "WindowingTest"

    version := "0.1"

    scalaVersion := "2.11.5"


    libraryDependencies += "org.apache.spark" %% "spark-core" % "2.2.1"
    libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.2.1"
    libraryDependencies += "org.apache.spark" %% "spark-hive" % "2.2.1"
    libraryDependencies += "com.holdenkarau" %% "spark-testing-base" % "2.2.0_0.8.0" % "test"

Google 搜索指向 derby-6648 (https://db.apache.org/derby/releases/release-10.12.1.1.cgi)

它说: 需要更改应用程序 在 SecurityManager 下使用 运行 Derby 的用户必须编辑策略文件并向 derby.jar、derbynet.jar 和 derbyoptionaltools.jar 授予以下附加权限:

许可 org.apache.derby.security.SystemPermission "engine", "usederbyinternals";

由于我没有显式安装 derby(可能是 spark 内部使用的),我该怎么做?

默认情况下,hive 使用两个 Metastore,第一个是元存储服务,第二个是默认调用的数据库 metastore_db,它使用 derby。所以我认为您必须使用配置单元安装和配置德比。 但是我没有在你的代码中看到 hive 的使用。 希望我的回答对你有帮助

以下快速而肮脏的 hack 解决了问题

System.setSecurityManager(null)

无论如何,因为它只是与自动化测试有关,也许它毕竟不是那么有问题;)

在测试中添加这一行 class 以禁用 hive 对我有用

      override implicit def enableHiveSupport: Boolean = false

在这里知道了:

https://github.com/holdenk/spark-testing-base/issues/148

我已经通过排除错误版本的 Derby 并在 build.sbt 中包含正确的版本解决了这个问题:

project.settings(libraryDependencies ++= Seq(
"org.apache.derby" % "derby" % "10.11.1.1" % Test)
  .map {
      case module if module.name.contains("spark") => module.excludeAll(
          ExclusionRule(organization = "org.apache.derby"))
      case module => module
  })

它不使用 hack。只是手动依赖解析。

如果您正在寻找一种更简洁的方法,那么在 build.sbt:

test in Test := {
  System.setSecurityManager(null) // SPARK-22918
  (test in Test).value
}

这会将修复应用到所有文件中的所有测试,而不会触及测试代码。