使用 PySpark 从 azure blob 存储中读取 csv 文件
reading a csv file from azure blob storage with PySpark
我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群进行机器学习项目。要在我的集群上运行,请使用 Jupyter notebook。另外,我有我的数据(csv 文件),存储在 Azure Blob 存储中。
根据文档,我的文件路径的语法是:
path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'
但是,当我尝试使用以下命令读取 csv 文件时:
csvFile = spark.read.csv(path, header=True, inferSchema=True)
我收到以下错误:
'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'
这是笔记本中错误的屏幕截图:
关于如何解决这个问题有什么想法吗?
它是(未加密):
wasb://...
或(加密):
wasbs://...
没有
wasb[s]://...
我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群进行机器学习项目。要在我的集群上运行,请使用 Jupyter notebook。另外,我有我的数据(csv 文件),存储在 Azure Blob 存储中。
根据文档,我的文件路径的语法是:
path = 'wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'
但是,当我尝试使用以下命令读取 csv 文件时:
csvFile = spark.read.csv(path, header=True, inferSchema=True)
我收到以下错误:
'java.net.URISyntaxException: Illegal character in scheme name at index 4: wasb[s]://springboard@6zpbt6muaorgs.blob.core.windows.net/movies_plus_genre_info_2.csv'
这是笔记本中错误的屏幕截图:
关于如何解决这个问题有什么想法吗?
它是(未加密):
wasb://...
或(加密):
wasbs://...
没有
wasb[s]://...