Pyspark:读取镶木地板文件——检查文件总数和文件大小?
Pyspark: Reading in parquet files -- check total number of files and size of files?
我正在为我的输入数据读取镶木地板文件目录。
有没有办法计算读入数据帧的文件总数,以及获取文件的大小?
我在使用 Spark 2.4.4
df.withColumn('input_file', input_file_name()) #will give you file name
df.count() #to get the number of files read in
我正在为我的输入数据读取镶木地板文件目录。
有没有办法计算读入数据帧的文件总数,以及获取文件的大小?
我在使用 Spark 2.4.4
df.withColumn('input_file', input_file_name()) #will give you file name
df.count() #to get the number of files read in