如果文件夹为空，如何正确读取据称包含来自 Spark 的 Parquet 文件的文件夹

Question

当我尝试读取一个据称包含 Parquet 格式文件的文件夹时，如果有数据，一切正常，如果没有数据，我会在第一行收到错误，后续代码不会执行

val hdfsData: DataFrame = spark.sqlContext.read.parquet(hdfsPath)
hdfsData.rdd.isEmpty() match ....
....

错误：org.apache.spark.sql.AnalysisException：无法推断 Parquet 的架构。必须手动指定。;

处理这种情况的正确方法是什么。

Answer 1

遇到了同样的问题，我用简单的 Try/Success/Failure

处理了它

val acc:DataFrame = session.createDataset(List("foo", "bar")).toDF()

val tryDf:Try[DataFrame] =
      Try(
        session.read.parquet("s3://path-to-bucket/path-to-folder-with-no-parquet-files-under-it/")
      )
    val resultDf:DataFrame = tryDf match {
      case Success(df) => acc.union(df)
      case Failure(f) => {
        println(s"@@ handled ${ f }") // => @@ handled org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.; 
        acc
      }
    }

    println(s"resultDf.count ${ resultDf.count }") // => 2```

如果文件夹为空，如何正确读取据称包含来自 Spark 的 Parquet 文件的文件夹

How to properly read a folder supposedly contains Parquet files from Spark if the folder is empty

apache-spark

parquet