使用 AWS 处理大量图像
Process lots of images using AWS
我有很多 100K+ 的图像存储在 S3 中,我有一些代码使用 pySpark 来处理其中的一些。我正在使用 Anaconda Python,因此已经正确安装了大量库,我正在使用库 scipy
、PIL
进行图像处理。
我打算使用 EMR,但这是我的选择:
- 如何在集群上正确安装所有库而不造成太多麻烦:
For Python applications, simply pass a .py file in the place of
instead of a JAR, and add Python .zip, .egg or .py
files to the search path with --py-files. - [Spark Documentation]
它们还支持customized bootstrap在配置集群时安装软件。然而,Anaconda 的 linux 安装并不像 'yum install -y' 那么简单。安装涉及:
- 下载anacondaxxx.sh
- bash anacondaxxx.sh
- #交互式回答 4 或 5 个问题
- ..
谁能给我指出正确的方向,什么是安装 Spark 和 Anaconda Python(或至少 scipy 和 PIL)的集群的更好方法。
可以使用EMR bootstrap actions to do a silent install of anaconda吗?
您可能还想考虑 Lambda,因为它现在支持 Python (2.7)。鉴于这些文件已经在 S3 中,您需要为它们编写 Lambda 事件脚本。
我有很多 100K+ 的图像存储在 S3 中,我有一些代码使用 pySpark 来处理其中的一些。我正在使用 Anaconda Python,因此已经正确安装了大量库,我正在使用库 scipy
、PIL
进行图像处理。
我打算使用 EMR,但这是我的选择:
- 如何在集群上正确安装所有库而不造成太多麻烦:
For Python applications, simply pass a .py file in the place of instead of a JAR, and add Python .zip, .egg or .py files to the search path with --py-files. - [Spark Documentation]
它们还支持customized bootstrap在配置集群时安装软件。然而,Anaconda 的 linux 安装并不像 'yum install -y' 那么简单。安装涉及:
- 下载anacondaxxx.sh
- bash anacondaxxx.sh
- #交互式回答 4 或 5 个问题
- ..
谁能给我指出正确的方向,什么是安装 Spark 和 Anaconda Python(或至少 scipy 和 PIL)的集群的更好方法。
可以使用EMR bootstrap actions to do a silent install of anaconda吗?
您可能还想考虑 Lambda,因为它现在支持 Python (2.7)。鉴于这些文件已经在 S3 中,您需要为它们编写 Lambda 事件脚本。