运行 pyspark 程序找不到文件
file not found while running pyspark program
我是 pyspark 的新手,我想在独立集群中启动一个 pyspark 程序,我遵循了这个 tutorial 上的步骤,然后我使用这个命令启动了我的程序:
bin\spark-submit examples\src\main\python\LSI_MapReduce\LSI.py
这是我的代码中发生错误的部分:
# load the dataset
rows = np.loadtxt('first.txt') <----- here
rows = sc.parallelize(rows)
mat = RowMatrix(rows)
# compute SVD
svd = mat.computeSVD(20, computeU=True)
我的代码的第一步 运行 很好,但我得到了这个错误:
in the line 200 FileNotFoundError: first.txt not found.
LSI_MapReduce
文件夹中有一个名为 first.txt 的文件与 LSI.py
位于同一位置
当我 运行 我的程序在 VScode 上时,它运行完美。
我该如何解决这个错误?
我非常乐意提供任何帮助。
Python,通过 Numpy,(不是 Spark)正在尝试从您 运行 您的 Python 解释器所在的位置读取文件,
link 中的字数统计示例读取 bin 文件夹旁边的 README.md 文件,因此如果这是您启动命令的位置,那么这就是您的文件需要的位置。否则,cd 进入文件所在的示例文件夹
此外,Spark 本身可以读取文本文件或 csv 文件;所以你不需要 numpy 来做到这一点
我是 pyspark 的新手,我想在独立集群中启动一个 pyspark 程序,我遵循了这个 tutorial 上的步骤,然后我使用这个命令启动了我的程序:
bin\spark-submit examples\src\main\python\LSI_MapReduce\LSI.py
这是我的代码中发生错误的部分:
# load the dataset
rows = np.loadtxt('first.txt') <----- here
rows = sc.parallelize(rows)
mat = RowMatrix(rows)
# compute SVD
svd = mat.computeSVD(20, computeU=True)
我的代码的第一步 运行 很好,但我得到了这个错误:
in the line 200 FileNotFoundError: first.txt not found.
LSI_MapReduce
文件夹中有一个名为 first.txt 的文件与 LSI.py
当我 运行 我的程序在 VScode 上时,它运行完美。
我该如何解决这个错误?
我非常乐意提供任何帮助。
Python,通过 Numpy,(不是 Spark)正在尝试从您 运行 您的 Python 解释器所在的位置读取文件,
link 中的字数统计示例读取 bin 文件夹旁边的 README.md 文件,因此如果这是您启动命令的位置,那么这就是您的文件需要的位置。否则,cd 进入文件所在的示例文件夹
此外,Spark 本身可以读取文本文件或 csv 文件;所以你不需要 numpy 来做到这一点