我怎样才能 install/import pyspark-csv?
How can I install/import pyspark-csv?
我正在尝试在 PySpark 中使用来自 CSV 文件的数据。我找到了一个名为 PySpark-CSV 的模块,它完全可以满足我的需要。根据 PySpark-CSV GitHub page、"no installation [is] required",所以我想我可以将源解压缩到我的 Python 路径中名为 'pyspark_csv' 的目录和 运行 列出的命令在他们的网站上:
import pyspark_csv as pycsv
sc.addPyFile('pyspark_csv.py')
但这使我出现导入错误,提示无法找到 pyspark_csv。
自述文件对我没有任何帮助,其他信息也很少。这里有人熟悉该模块吗?
表示Python找不到pyspark_csv.py
。这是因为您将文件放在 pyspark_csv
和 Python 中而没有意识到这一点。假设目录的完整路径是“/foo/pyspark_csv”。您可以修改 PYTHONPATH,或使用其他方法来通知 Python 您将文件放在哪里。
#Run this in bash shell before you excute python
#Or put thisline in a bottom of .bashrc file.
export PYTHONPATH=$PYTHONPATH:/foo/pyspark_csv
也为 Spark 使用完整路径:
sc.addPyFile('/foo/pyspark_csv/pyspark_csv.py')
我正在尝试在 PySpark 中使用来自 CSV 文件的数据。我找到了一个名为 PySpark-CSV 的模块,它完全可以满足我的需要。根据 PySpark-CSV GitHub page、"no installation [is] required",所以我想我可以将源解压缩到我的 Python 路径中名为 'pyspark_csv' 的目录和 运行 列出的命令在他们的网站上:
import pyspark_csv as pycsv
sc.addPyFile('pyspark_csv.py')
但这使我出现导入错误,提示无法找到 pyspark_csv。
自述文件对我没有任何帮助,其他信息也很少。这里有人熟悉该模块吗?
表示Python找不到pyspark_csv.py
。这是因为您将文件放在 pyspark_csv
和 Python 中而没有意识到这一点。假设目录的完整路径是“/foo/pyspark_csv”。您可以修改 PYTHONPATH,或使用其他方法来通知 Python 您将文件放在哪里。
#Run this in bash shell before you excute python
#Or put thisline in a bottom of .bashrc file.
export PYTHONPATH=$PYTHONPATH:/foo/pyspark_csv
也为 Spark 使用完整路径:
sc.addPyFile('/foo/pyspark_csv/pyspark_csv.py')