我找不到将 excel 文件读入 pyspark 数据帧的代码
i couldnt find code for reading a excel file into pyspark dataframe
当我将 excel 转换为 csv 时..我发现上传的记录不匹配。
我有 xslx 文件 91800 条记录,但是在转换为 csv 文件后读入 pyspark 数据帧时,它显示了 92301 条记录。每个操作都运行良好,但记录不同。
谁能帮帮我?
根据我的经验,当您的 table 中包含分隔符(例如逗号)and/or 新行的自由文本字段时,可能会出现此问题。
您可以通过以下方式解决:
- 将 excel 文件导出到 csv 时选择 "Quote all text cells" 选项。
- 在将 csv 文件读入 Spark 时使用 multiLine 选项,例如
spark.read.csv(file, multiLine=True)
。
我会尝试使用 Pandas
阅读,然后转换为 spark 数据框。根据我的经验,Pandas
csv 读取更稳定。
import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)
您的记录数似乎适合用Pandas
阅读
当我将 excel 转换为 csv 时..我发现上传的记录不匹配。
我有 xslx 文件 91800 条记录,但是在转换为 csv 文件后读入 pyspark 数据帧时,它显示了 92301 条记录。每个操作都运行良好,但记录不同。 谁能帮帮我?
根据我的经验,当您的 table 中包含分隔符(例如逗号)and/or 新行的自由文本字段时,可能会出现此问题。
您可以通过以下方式解决:
- 将 excel 文件导出到 csv 时选择 "Quote all text cells" 选项。
- 在将 csv 文件读入 Spark 时使用 multiLine 选项,例如
spark.read.csv(file, multiLine=True)
。
我会尝试使用 Pandas
阅读,然后转换为 spark 数据框。根据我的经验,Pandas
csv 读取更稳定。
import pandas as pd
df = pd.read_csv('path')
df_spark = spark.createDataFrame(df)
您的记录数似乎适合用Pandas