Pyspark 无法读取以特殊字符 (ø) 作为分隔符的 csv 文件

Pyspark not able to read csv file with special character(ø) as delimiter

我的 csv 文件如下所示:

idøageøname
1ø25øAshutosh
2ø21øShipra
3ø11øNimisha
4ø15øBhavya
5ø7øSammridha

我无法读取此 csv 文件(分隔符为 ø)。下面的 Pyspark 命令将整行读取为一列而不是 3 列。

df = spark.read.option("header", "true").option("sep", "ø").csv('file_path.csv')

我在我的机器上创建了相同的 csv 并且可以使用“ISO-8859-1”读取数据。

df = spark.read.option("header", "true").option("encoding", "ISO-8859-1").option("sep", "ø").csv('file_path.csv')

有关编码的更多信息,请查看 https://en.wikipedia.org/wiki/ISO/IEC_8859-1 和代码页布局