Pandas 如何将多个镶木地板文件附加到一个数据帧
How to append multiple parquet files to one dataframe in Pandas
我正在使用 Spark 和 Pandas 解压缩 snappy.parquet 文件。我有 180 个文件(我的 Jupyter 笔记本中有 7GB 的数据)。以我的理解,我需要创建一个循环来获取所有文件——用 Spark 解压缩它们并附加到 Pandas table?这是代码
findspark.init()
import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
parquetFile = spark.read.parquet("file_name.snappy.parquet")
parquetFile.createOrReplaceTempView("parquetFile")
file_output = spark.sql("SELECT * FROM parquetFile")
file_output.show()
pandas_df = file_output.select("*").toPandas()
这部分有效,我有一个文件中的 Pandas 数据框,我还有另外 180 个文件需要附加到 pandas_df。谁能帮我吗?谢谢!
使用 Spark,您可以从单个文件或多个文件中 load
dataframe
,只需要将单个文件的路径替换为文件夹的路径(假设所有您的 180 个文件在同一目录中)。
parquetFile = spark.read.parquet("your_dir_path/")
我正在使用 Spark 和 Pandas 解压缩 snappy.parquet 文件。我有 180 个文件(我的 Jupyter 笔记本中有 7GB 的数据)。以我的理解,我需要创建一个循环来获取所有文件——用 Spark 解压缩它们并附加到 Pandas table?这是代码
findspark.init()
import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
parquetFile = spark.read.parquet("file_name.snappy.parquet")
parquetFile.createOrReplaceTempView("parquetFile")
file_output = spark.sql("SELECT * FROM parquetFile")
file_output.show()
pandas_df = file_output.select("*").toPandas()
这部分有效,我有一个文件中的 Pandas 数据框,我还有另外 180 个文件需要附加到 pandas_df。谁能帮我吗?谢谢!
使用 Spark,您可以从单个文件或多个文件中 load
dataframe
,只需要将单个文件的路径替换为文件夹的路径(假设所有您的 180 个文件在同一目录中)。
parquetFile = spark.read.parquet("your_dir_path/")