来自 AWS S3 的 Sklearn joblib 加载函数 IO 错误

Question

我正在尝试从 sklearn-learn 加载我的分类器的 pkl 转储。

对于我的对象，joblib 转储比 cPickle 转储压缩得更好，所以我想坚持使用它。但是，我在尝试从 AWS S3 读取对象时遇到错误。

案例：

本地托管的 Pkl 对象：pickle.load 有效，joblib.load 有效
使用应用程序将 Pkl 对象推送到 Heroku（从静态文件夹加载）：pickle.load 有效，joblib.load 有效
Pkl 对象推送到 S3：pickle.load 有效，joblib.load returns IOError。（从 heroku 应用程序测试并从本地脚本测试）

请注意，joblib 和 pickle 的 pkl 对象是使用各自方法转储的不同对象。（即 joblib 仅加载 joblib.dump(obj) 并且 pickle 仅加载 cPickle.dump(obj).

Joblib 与 cPickle 代码

# case 2, this works for joblib, object pushed to heroku
resources_dir = os.getcwd() + "/static/res/" # main resource directory
input = joblib.load(resources_dir + 'classifier.pkl')

# case 3, this does not work for joblib, object hosted on s3
aws_app_assets = "https://%s.s3.amazonaws.com/static/res/" % keys.AWS_BUCKET_NAME
classifier_url_s3 = aws_app_assets + 'classifier.pkl'

# does not work with raw url, IO Error
classifier = joblib.load(classifier_url_s3)

# urrllib2, can't open instance
# TypeError: coercing to Unicode: need string or buffer, instance found
req = urllib2.Request(url=classifier_url_s3)
f = urllib2.urlopen(req)
classifier = joblib.load(urllib2.urlopen(classifier_url_s3))

# but works with a cPickle object hosted on S3
classifier = cPickle.load(urllib2.urlopen(classifier_url_s3))

我的应用程序在情况 2 中运行良好，但由于加载速度非常慢，我想尝试将所有静态文件推送到 S3，尤其是这些泡菜转储。 joblib 的加载方式与 pickle 的加载方式有本质上的不同会导致此错误吗？

这是我的错误

File "/usr/local/lib/python2.7/site-packages/sklearn/externals/joblib/numpy_pickle.py", line 409, in load
with open(filename, 'rb') as file_handle:
IOError: [Errno 2] No such file or directory: classifier url on s3
[Finished in 0.3s with exit code 1]

这不是权限问题，因为我已经将所有对象放在 s3 public 上进行测试并且 pickle.dump 对象加载正常。如果我直接在浏览器中输入 url，joblib.dump 对象也会下载

我可能完全遗漏了一些东西。

谢谢。

Answer 1

joblib.load() 需要文件系统中存在的文件名。

Signature: joblib.load(filename, mmap_mode=None)
Parameters
-----------
filename: string
    The name of the file from which to load the object

此外，将所有资源 public 用于其他资产可能不是一个好主意，即使您不介意 pickled 模型可供全世界使用。

首先将对象从 S3 复制到您的 worker 的本地文件系统相当简单：

from boto.s3.connection import S3Connection
from sklearn.externals import joblib
import os

s3_connection = S3Connection(AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY)
s3_bucket = s3_connection.get_bucket(keys.AWS_BUCKET_NAME)
local_file = '/tmp/classifier.pkl'
s3_bucket.get_key(aws_app_assets + 'classifier.pkl').get_contents_to_filename(local_file)
clf = joblib.load(local_file)
os.remove(local_file)

希望对您有所帮助。

P.S。您可以使用这种方法来腌制整个 sklearn 管道。这也包括特征插补。请注意训练和预测之间库的版本冲突。

来自 AWS S3 的 Sklearn joblib 加载函数 IO 错误

Sklearn joblib load function IO error from AWS S3

python

amazon-s3

pickle

scikit-learn

joblib