运行 pyspark 程序找不到文件

Question

我是 pyspark 的新手，我想在独立集群中启动一个 pyspark 程序，我遵循了这个 tutorial 上的步骤，然后我使用这个命令启动了我的程序：

bin\spark-submit examples\src\main\python\LSI_MapReduce\LSI.py 这是我的代码中发生错误的部分：

# load the dataset 
rows = np.loadtxt('first.txt') <----- here

rows = sc.parallelize(rows)
mat = RowMatrix(rows)

# compute SVD 
svd = mat.computeSVD(20, computeU=True)

我的代码的第一步运行很好，但我得到了这个错误：

in the line 200 FileNotFoundError: first.txt not found.

LSI_MapReduce 文件夹中有一个名为 first.txt 的文件与 LSI.py

位于同一位置

当我运行我的程序在 VScode 上时，它运行完美。

我该如何解决这个错误？

我非常乐意提供任何帮助。

Answer 1

Python，通过 Numpy，（不是 Spark）正在尝试从您运行您的 Python 解释器所在的位置读取文件，

link 中的字数统计示例读取 bin 文件夹旁边的 README.md 文件，因此如果这是您启动命令的位置，那么这就是您的文件需要的位置。否则，cd 进入文件所在的示例文件夹

此外，Spark 本身可以读取文本文件或 csv 文件；所以你不需要 numpy 来做到这一点

运行 pyspark 程序找不到文件

file not found while running pyspark program

python

apache-spark

pyspark