如何使用 spark 读取某些镶木地板文件分区?
How to read certain parquet file partitions using spark?
是否可以使用 spark 从文件夹中读取某些分区?
我只知道这样:
df = spark.read.parquet("/mnt/Staging/file_Name/")
有没有办法只读取日期不小于今天减3个月的那些分区?
如果你的数据框是按日期分区的,你可以只使用过滤器,spark 将只读取这个日期的分区
df = spark.read.parquet("/mnt/Staging/file_Name/").filter(col("your_date_col") === "2022-02-03")
是否可以使用 spark 从文件夹中读取某些分区?
我只知道这样: df = spark.read.parquet("/mnt/Staging/file_Name/")
有没有办法只读取日期不小于今天减3个月的那些分区?
如果你的数据框是按日期分区的,你可以只使用过滤器,spark 将只读取这个日期的分区
df = spark.read.parquet("/mnt/Staging/file_Name/").filter(col("your_date_col") === "2022-02-03")