导入时 Apache Zeppelin 错误 Pandas

Apache Zeppelin Error When Importing Pandas

我在将 Pandas 库导入我的 Zeppelin 笔记本时遇到了一个奇怪的错误。这是我的单元格中的基本代码:

%python

import pandas as pd

df = pd.read_csv (r'target/youtube_videos.csv')
print (df)

我收到以下错误:

Fail to execute line 3: import pandas as pd
Traceback (most recent call last):
  File "/tmp/1636039066525-0/zeppelin_python.py", line 153, in <module>
    exec(code, _zcUserQueryNameSpace)
  File "<stdin>", line 3, in <module>
ModuleNotFoundError: No module named 'pandas'

我试着看看我的 Python 路径是什么样的,这里是:

%sh
python --version
python3-config --configdir

这给了我以下信息:

Python 3.7.0b3
/usr/lib/python3.8/config-3.8-x86_64-linux-gnu

我正在使用 Zeppelin 0.10.0。

编辑:

我尝试了以下方法:

joesan@joesan-InfinityBook-S-14-v5:~/Projects/Private/ml-projects/ml-data-preparation-sandbox$ zstart
Please specify HADOOP_CONF_DIR if USE_HADOOP is true
Zeppelin start                                             [  OK  ]
joesan@joesan-InfinityBook-S-14-v5:~/Projects/Private/ml-projects/ml-data-preparation-sandbox$ python
Python 3.7.0b3 (default, Mar 30 2018, 04:35:22) 
[GCC 7.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import pandas as pd
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ModuleNotFoundError: No module named 'pandas'
>>> 

Pandas 似乎已经安装:

joesan@joesan-InfinityBook-S-14-v5:~/Projects/Private/ml-projects/ml-data-preparation-sandbox$ pip3 install pandas
Defaulting to user installation because normal site-packages is not writeable
Requirement already satisfied: pandas in /usr/local/lib/python3.8/dist-packages (1.3.4)
Requirement already satisfied: python-dateutil>=2.7.3 in /usr/lib/python3/dist-packages (from pandas) (2.7.3)
Requirement already satisfied: numpy>=1.17.3 in /usr/lib/python3/dist-packages (from pandas) (1.17.4)
Requirement already satisfied: pytz>=2017.3 in /usr/lib/python3/dist-packages (from pandas) (2019.3)
WARNING: You are using pip version 21.2.4; however, version 21.3.1 is available.
You should consider upgrading via the '/usr/bin/python3 -m pip install --upgrade pip' command.
joesan@joesan-InfinityBook-S-14-v5:~/Projects/Private/ml-projects/ml-data-preparation-sandbox$ 

我什至在 Zeppelin 中设置了 python 解释器,如下所示:

你确定你已经安装了 pandas 吗?除非 Zeppelin 使用自己的 Python,否则问题就来了。试一试 pip3 install pandas

Zeppelin 使用的 Python 解释器似乎配置不正确。您可能安装了多个不同的 Python,您考虑了一个,但 Zeppelin 使用了另一个。您必须检查参数 zeppelin.python。然后需要检查是否安装了 Python pandas 库(我认为没有)。

此参数指定“已安装 Python 二进制文件的路径。如果 python 不在您的 $PATH 中,您可以设置绝对目录(示例:/usr/bin/python)”。 =15=]

默认情况下,Zeppelin 会使用在zeppelin.python属性到运行Python过程中定义的Python。解释器可以使用所有已安装的模块(使用 pip,easy_install...)

Zeppelin 使用的解释器需要安装 pandas

或在此参数路径中指定 Python 已安装 pandas 的解释器。

对于可能面临相同问题的任何人,以下是我的解决方法:

  1. 安装pyenv
  2. 使用 pyenv
  3. 安装 python 版本 3.7.8
  4. 使用pyenv全局命令设置版本3.7.8
  5. 将 zeppelin.interpretor 设置为 python