使用 Python (Spark) 对图像进行矢量化

Vectorise images using Python (Spark)

我有一大系列 jpeg/png 图片。我想最终运行一个关于这些的神经网络。但是首先我必须对图像进行矢量化。因为图片量大，打算用python和Spark代替软件

我是一名初级程序员。谁知道一些粗略的代码来做到这一点？如果做不到这一点，也欢迎使用其他方法！

非常感谢！

在考虑 Spark 和分布式计算之前，先在本地机器上实施您的方法来处理单个图像。如果你喜欢 python，你可以使用类似 http://scikit-image.org/docs/dev/auto_examples/ 的东西，但这在很大程度上取决于你想要实现的目标
如果图片量很大，将它们存储在HDFS 上的SequenceFile 中。这个问题将帮助您使用代码：Store images/videos into Hadoop HDFS
大规模实施矢量化方法：使用 SparkContext 从 SeqenceFile 读取数据，将矢量化 Python 实施放入 Spark map() 函数并将其应用于所有您在分布式集群上拥有的图像。然后将数据存回HDFS
不幸的是，对于神经网络，您必须运行在本地使用您的算法，因为 MLlib 中尚未实现 NN。同样，如果您喜欢 python：http://scikit-learn.org/stable/modules/neural_networks.html