使用 PySpark 读取简单的 csv

Question

可能是个愚蠢的问题，但我不明白。我正在使用由 IBM Watson Studio 托管的 Python3.6、Spark 2.4 开发 Jupyter Notebook。

我有一个简单的 csv 文件：

num,label
0,0
1,0
2,0
3,0

为了阅读它，我使用了以下命令：

labels = spark.read.csv(url, sep=',', header=True)

但是如果我使用 labels.head() 检查 labels 是否正确，我会得到 Row(PAR1Љ��L�Q�� ='\x08\x00]')

我错过了什么？

Answer 1

这看起来像是编码问题

尝试使用选项中提供的编码，也可以尝试使用 UTF-8

labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")

Read simple csv with PySpark