我找不到将 excel 文件读入 pyspark 数据帧的代码

i couldnt find code for reading a excel file into pyspark dataframe

当我将 excel 转换为 csv 时..我发现上传的记录不匹配。

我有 xslx 文件 91800 条记录,但是在转换为 csv 文件后读入 pyspark 数据帧时,它显示了 92301 条记录。每个操作都运行良好,但记录不同。 谁能帮帮我?

根据我的经验,当您的 table 中包含分隔符(例如逗号)and/or 新行的自由文本字段时,可能会出现此问题。

您可以通过以下方式解决:

  • 将 excel 文件导出到 csv 时选择 "Quote all text cells" 选项。
  • 在将 csv 文件读入 Spark 时使用 multiLine 选项,例如 spark.read.csv(file, multiLine=True)

我会尝试使用 Pandas 阅读,然后转换为 spark 数据框。根据我的经验,Pandas csv 读取更稳定。

import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)

您的记录数似乎适合用Pandas

阅读