Pandas 如何将多个镶木地板文件附加到一个数据帧

Question

我正在使用 Spark 和 Pandas 解压缩 snappy.parquet 文件。我有 180 个文件（我的 Jupyter 笔记本中有 7GB 的数据）。以我的理解，我需要创建一个循环来获取所有文件——用 Spark 解压缩它们并附加到 Pandas table?这是代码

findspark.init()

import pyspark 

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

parquetFile = spark.read.parquet("file_name.snappy.parquet")

parquetFile.createOrReplaceTempView("parquetFile")
file_output = spark.sql("SELECT * FROM parquetFile")
file_output.show()

pandas_df = file_output.select("*").toPandas()

这部分有效，我有一个文件中的 Pandas 数据框，我还有另外 180 个文件需要附加到 pandas_df。谁能帮我吗？谢谢！

Answer 1

使用 Spark，您可以从单个文件或多个文件中 load dataframe，只需要将单个文件的路径替换为文件夹的路径（假设所有您的 180 个文件在同一目录中）。

parquetFile = spark.read.parquet("your_dir_path/")

Pandas 如何将多个镶木地板文件附加到一个数据帧

How to append multiple parquet files to one dataframe in Pandas

pandas

snappy

apache-spark

parquet