将 Parquet 转换为 CSV
Convert Parquet to CSV
如何在没有 Spark 的情况下从本地文件系统(例如 python、某些库等)将 Parquet 转换为 CSV? (试图找到尽可能简单和简约的解决方案,因为需要自动化所有事情而不是太多资源)。
我试过例如parquet-tools
在我的 Mac 上,但数据输出看起来不正确。
需要进行输出,以便当某些列中不存在数据时 - CSV 将具有相应的 NULL(2 个逗号之间的空列)..
谢谢。
您可以使用 Python 包 pandas
和 pyarrow
来完成此操作(pyarrow
是您需要的 pandas
的可选依赖项功能)。
import pandas as pd
df = pd.read_parquet('filename.parquet')
df.to_csv('filename.csv')
当您需要对文件中的内容进行修改时,您可以对df
进行标准的pandas
操作。
如何在没有 Spark 的情况下从本地文件系统(例如 python、某些库等)将 Parquet 转换为 CSV? (试图找到尽可能简单和简约的解决方案,因为需要自动化所有事情而不是太多资源)。
我试过例如parquet-tools
在我的 Mac 上,但数据输出看起来不正确。
需要进行输出,以便当某些列中不存在数据时 - CSV 将具有相应的 NULL(2 个逗号之间的空列)..
谢谢。
您可以使用 Python 包 pandas
和 pyarrow
来完成此操作(pyarrow
是您需要的 pandas
的可选依赖项功能)。
import pandas as pd
df = pd.read_parquet('filename.parquet')
df.to_csv('filename.csv')
当您需要对文件中的内容进行修改时,您可以对df
进行标准的pandas
操作。