将 pandas 与 Spark 一起使用
Use pandas with Spark
我有一个关于 spark 和 pandas 的菜鸟问题。我想将 pandas、numpy 等与 spark 一起使用,但是当我导入 lib 时出现错误。你能帮我吗?
这是我的代码
from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas
# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)
# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)
这是错误:
ImportError: No module named pandas
如何使用 pandas?不是本地模式。
Spark 有自己的 Dataframe 对象,可以从 RDD 创建。
您仍然可以使用 numpy 等库,但必须先安装它们。
在 terminal.If 中使用 pip list|grep 'pandas'
命令检查您的盒子中是否安装了 pandas 您有一个匹配项,然后执行 apt-get update
。
如果您使用多节点集群,是的,您需要在所有客户端框中安装 pandas。
最好尝试使用 spark 版本的 DataFrame,但如果您仍然喜欢使用 pandas 上述方法也行得通
您可以使用 Apache Arrow 来解决这个问题。
这是初始版本,但未来会更强大(会看到)。
安装:
click
我有一个关于 spark 和 pandas 的菜鸟问题。我想将 pandas、numpy 等与 spark 一起使用,但是当我导入 lib 时出现错误。你能帮我吗? 这是我的代码
from pyspark import SparkContext, SQLContext
from pyspark import SparkConf
import pandas
# Config
conf = SparkConf().setAppName("Script")
sc = SparkContext(conf=conf)
log4j = sc._jvm.org.apache.log4j
log4j.LogManager.getRootLogger().setLevel(log4j.Level.ERROR)
sqlCtx = SQLContext(sc)
# Importation of csv out of HDFS
data_name = "file_on_hdfs.csv"
data_textfile = sc.textFile(data_name)
这是错误:
ImportError: No module named pandas
如何使用 pandas?不是本地模式。
Spark 有自己的 Dataframe 对象,可以从 RDD 创建。
您仍然可以使用 numpy 等库,但必须先安装它们。
在 terminal.If 中使用 pip list|grep 'pandas'
命令检查您的盒子中是否安装了 pandas 您有一个匹配项,然后执行 apt-get update
。
如果您使用多节点集群,是的,您需要在所有客户端框中安装 pandas。
最好尝试使用 spark 版本的 DataFrame,但如果您仍然喜欢使用 pandas 上述方法也行得通
您可以使用 Apache Arrow 来解决这个问题。
这是初始版本,但未来会更强大(会看到)。
安装: click