Pandas 如何将多个镶木地板文件附加到一个数据帧

How to append multiple parquet files to one dataframe in Pandas

我正在使用 Spark 和 Pandas 解压缩 snappy.parquet 文件。我有 180 个文件(我的 Jupyter 笔记本中有 7GB 的数据)。以我的理解,我需要创建一个循环来获取所有文件——用 Spark 解压缩它们并附加到 Pandas table?这是代码

findspark.init()

import pyspark 

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

parquetFile = spark.read.parquet("file_name.snappy.parquet")

parquetFile.createOrReplaceTempView("parquetFile")
file_output = spark.sql("SELECT * FROM parquetFile")
file_output.show()

pandas_df = file_output.select("*").toPandas()

这部分有效,我有一个文件中的 Pandas 数据框,我还有另外 180 个文件需要附加到 pandas_df。谁能帮我吗?谢谢!

使用 Spark,您可以从单个文件或多个文件中 load dataframe,只需要将单个文件的路径替换为文件夹的路径(假设所有您的 180 个文件在同一目录中)。

parquetFile = spark.read.parquet("your_dir_path/")