使用 PySpark 读取简单的 csv

Read simple csv with PySpark

可能是个愚蠢的问题,但我不明白。我正在使用由 IBM Watson Studio 托管的 Python3.6、Spark 2.4 开发 Jupyter Notebook。

我有一个简单的 csv 文件:

num,label
0,0
1,0
2,0
3,0

为了阅读它,我使用了以下命令:

labels = spark.read.csv(url, sep=',', header=True)

但是如果我使用 labels.head() 检查 labels 是否正确,我会得到 Row(PAR1Љ��L�Q�� ='\x08\x00]')

我错过了什么?

这看起来像是编码问题

尝试使用选项中提供的编码,也可以尝试使用 UTF-8

labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")