不是图像到图像转换的任务如何与 Pix2pix 一起工作?

How can tasks that aren't Image-to-image translation work with Pix2pix?

zi2zi,一个汉字生成GAN,使用pix2pix生成图像。我还看到许多其他应用程序使用 pix2pix 来完成与图像到图像转换无关的任务。对比了zi2zi和pix2pix的代码,发现了一些看不懂的实现。

  1. 目标源是什么,随机噪声在哪里?与存在明显目标图像的图像到图像翻译任务不同,字符生成的目标源应该是什么?

  2. 假设unet的编码器部分的输出是latentspace,那么我们应该如何将latentspace设置为某个值进行评估,探索潜在的 space 而解码器受编码器网络的跳过连接影响?

  3. 我想问一下 pix2pix 如何概括这些类型的问题 pix2pix 并不是一个强大的解决方案。

在深入研究代码几个小时后,我发现了 zi2zi 如何利用 pix2pix 方法。如果我是正确的,数据将分为两部分:real_Areal_Breal_A 与 class 标签 embedding_ids 一起被送入生成器并生成 fake_b。然后鉴别器旨在鉴别 fake_breal_breal_a 作为目标图像。

总之,这看起来像一个自动编码器,但将鉴别器作为评估指标。在概念上,pix2pix 和其他带编码器的 GAN 之间没有太大区别。