使用 AWS 处理大量图像

Process lots of images using AWS

我有很多 100K+ 的图像存储在 S3 中,我有一些代码使用 pySpark 来处理其中的一些。我正在使用 Anaconda Python,因此已经正确安装了大量库,我正在使用库 scipyPIL 进行图像处理。

我打算使用 EMR,但这是我的选择:

  1. 如何在集群上正确安装所有库而不造成太多麻烦:

For Python applications, simply pass a .py file in the place of instead of a JAR, and add Python .zip, .egg or .py files to the search path with --py-files. - [Spark Documentation]

  1. 它们还支持customized bootstrap在配置集群时安装软件。然而,Anaconda 的 linux 安装并不像 'yum install -y' 那么简单。安装涉及:

    • 下载anacondaxxx.sh
    • bash anacondaxxx.sh
    • #交互式回答 4 或 5 个问题
    • ..

谁能给我指出正确的方向,什么是安装 Spark 和 Anaconda Python(或至少 scipy 和 PIL)的集群的更好方法。

可以使用EMR bootstrap actions to do a silent install of anaconda吗?

您可能还想考虑 Lambda,因为它现在支持 Python (2.7)。鉴于这些文件已经在 S3 中,您需要为它们编写 Lambda 事件脚本。