我找不到将 excel 文件读入 pyspark 数据帧的代码

Question

当我将 excel 转换为 csv 时..我发现上传的记录不匹配。

我有 xslx 文件 91800 条记录，但是在转换为 csv 文件后读入 pyspark 数据帧时，它显示了 92301 条记录。每个操作都运行良好，但记录不同。谁能帮帮我？

Answer 1

根据我的经验，当您的 table 中包含分隔符（例如逗号）and/or 新行的自由文本字段时，可能会出现此问题。

您可以通过以下方式解决：

Answer 2

我会尝试使用 Pandas 阅读，然后转换为 spark 数据框。根据我的经验，Pandas csv 读取更稳定。

import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)

您的记录数似乎适合用Pandas

阅读

i couldnt find code for reading a excel file into pyspark dataframe