将 pandas 与 Spark 一起使用

Question

我有一个关于 spark 和 pandas 的菜鸟问题。我想将 pandas、numpy 等与 spark 一起使用，但是当我导入 lib 时出现错误。你能帮我吗？这是我的代码

from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas

# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)

# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)

这是错误：

ImportError: No module named pandas

如何使用 pandas？不是本地模式。

Answer 1

Spark 有自己的 Dataframe 对象，可以从 RDD 创建。

您仍然可以使用 numpy 等库，但必须先安装它们。

Answer 2

在 terminal.If 中使用 pip list|grep 'pandas' 命令检查您的盒子中是否安装了 pandas 您有一个匹配项，然后执行 apt-get update。如果您使用多节点集群，是的，您需要在所有客户端框中安装 pandas。

最好尝试使用 spark 版本的 DataFrame，但如果您仍然喜欢使用 pandas 上述方法也行得通

Answer 3

您可以使用 Apache Arrow 来解决这个问题。

Apache Arrow

这是初始版本，但未来会更强大（会看到）。

安装： click

将 pandas 与 Spark 一起使用

Use pandas with Spark

python

importerror

pandas

pyspark