使用 PySpark 读取简单的 csv
Read simple csv with PySpark
可能是个愚蠢的问题,但我不明白。我正在使用由 IBM Watson Studio 托管的 Python3.6、Spark 2.4 开发 Jupyter Notebook。
我有一个简单的 csv 文件:
num,label
0,0
1,0
2,0
3,0
为了阅读它,我使用了以下命令:
labels = spark.read.csv(url, sep=',', header=True)
但是如果我使用 labels.head()
检查 labels
是否正确,我会得到 Row(PAR1Љ��L�Q�� ='\x08\x00]')
我错过了什么?
这看起来像是编码问题
尝试使用选项中提供的编码,也可以尝试使用 UTF-8
labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")
可能是个愚蠢的问题,但我不明白。我正在使用由 IBM Watson Studio 托管的 Python3.6、Spark 2.4 开发 Jupyter Notebook。
我有一个简单的 csv 文件:
num,label
0,0
1,0
2,0
3,0
为了阅读它,我使用了以下命令:
labels = spark.read.csv(url, sep=',', header=True)
但是如果我使用 labels.head()
检查 labels
是否正确,我会得到 Row(PAR1Љ��L�Q�� ='\x08\x00]')
我错过了什么?
这看起来像是编码问题
尝试使用选项中提供的编码,也可以尝试使用 UTF-8
labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")