在 pyspark 中如何检查读入 pyspark 的格式?三角洲与实木复合地板

In pyspark how to check the format a pyspark was read in? Delta vs parquet

我有读取文件的功能,可以是 delta 或 parquet 格式。

def getData(filename,fileFormat)
      if data_format == "parquet":
        return spark.read.parquet(filename)
      elif data_format == "delta":
        return spark.read.format("delta").load(filename)

然后我在一些分析函数中使用返回的pyspark.sql.dataframe.DataFrame

def someAnalyticalFunction(df)
  if df == "parquet":  #I know this isnt right but how do i check the data format?
     #do some analysis
  elif df == "delta"
     #do some slight different analysis

我是否可以检查分析功能,读入的数据帧 (df) 是什么格式?

你不能用 Spark 做到这一点,但你可以使用 dbutils.fs 检查增量元数据文件是否存在