使用 Python (Spark) 对图像进行矢量化

Vectorise images using Python (Spark)

我有一大系列 jpeg/png 图片。我想最终 运行 一个关于这些的神经网络。但是首先我必须对图像进行矢量化。因为图片量大,打算用python和Spark代替软件

我是一名初级程序员。谁知道一些粗略的代码来做到这一点?如果做不到这一点,也欢迎使用其他方法!

非常感谢!

  1. 在考虑 Spark 和分布式计算之前,先在本地机器上实施您的方法来处理单个图像。如果你喜欢 python,你可以使用类似 http://scikit-image.org/docs/dev/auto_examples/ 的东西,但这在很大程度上取决于你想要实现的目标
  2. 如果图片量很大,将它们存储在HDFS 上的SequenceFile 中。这个问题将帮助您使用代码:Store images/videos into Hadoop HDFS
  3. 大规模实施矢量化方法:使用 SparkContextSeqenceFile 读取数据,将矢量化 Python 实施放入 Spark map() 函数并将其应用于所有您在分布式集群上拥有的图像。然后将数据存回HDFS
  4. 不幸的是,对于神经网络,您必须 运行 在本地使用您的算法,因为 MLlib 中尚未实现 NN。同样,如果您喜欢 python:http://scikit-learn.org/stable/modules/neural_networks.html
  5. ,sklearn 之类的东西可能会有所帮助