GAN和PS合体会怎样?东京大学图像增强新研究:无需配对图像,增强效果还可解释
强强联手
十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI
GAN和PS合体,会擦出怎样的火花?
在让图像变美的这条道路上,方法可谓是层出不穷。
过去,若是有大量的原始图像和增强图像,那么我们就可以用类似CNN的方法进行训练,来让图像变得更美。
但在现实中,成对的图像并没有那么多。于是,像CycleGAN这样方法就诞生了。
然而,我们都知道,生成对抗网络的过程就像一个黑盒子,人们无法手动调节细节部分,以及输出图像的分辨率也有限制。
于是乎,来自东京大学的研究人员想出了一个办法——让GAN和PS软件做个合体。
我们在PS美化图片的时候,会对图像的参数进行一些设置。
研究人员提出的这个方法是一个强化学习框架,让GAN和PS做结合,这样就可以用PS美化图像的参数,以及在不需要大量成对图像的情况下,输出较好的结果。
图像集无需成对,效果逼近专业水平
话不多说,先来看看这个强化学习框架的效果吧!
实验主要是从两方面进行,一是图片增强,二是人脸美化。
图片增强(Photo Enhancement)
在这个实验中,研究人员采用的数据集是MIT-Adobe 5K。
这个数据集包含了5000张图片,每张照片都由5位专家处理过。
为了呈现不成对的图像集,研究人员将其中的2250张原始图像和2250张不重叠且修饰过的图像作为训练集,另外500张作为测试集。
△在MIT-Adobe 5K数据集上,不同方法间的定量比较
研究人员首先进行了定量比较。
和提出的强化学习框架做比较的,是其他一些无需成对图像集的现有方法,例如CycleGAN。
从上表的实验数据可以看出,无论是大图还是小图,在PSNR和SSIM这两个评测指标方面多取得了最优结果。
△在MIT-Adobe 5K数据集的一张测试图像上,不同方法间的定性比较
接下来是定性比较。
此处,使用了Adobe Lightroom中提供的“auto white-balance”和“auto-tone adjustment”功能,研究人员将其命名为Lightroom (auto)。
如上图所示,Lightroom (auto)会让颜色变暗,CycleGAN会让天空和建筑之间的边界产生伪影,Exposure会让图像过度曝光,D&R输出的图像比目标图像稍微暗一些。
而研究人员的方法更加接近上图(h)中专家修饰过的图像。
值得注意的是,虽然DPE的方法也比较接近,但在定量实验中会表现出尺度敏感性。
人脸美化(Face Beautification)
第二个实验就是对人脸照片进行美化。
在这个实验中所用到的数据集是SCUTFBP5500,共包含5500人脸图像以及附带的“颜值评分”。
研究人员假定评分前1500的是“高颜值”人脸照片,其他的便是颜值不那么高的人脸照片。
△在SCUT-FBP5500数据集上的定性比较
同样,先做的是定性实验。
作比较的方法包括ResGAN、CycelGAN、DFI和Facelet,这些方法都使用CNN来处理人脸图像。
从上图的实验结果不难看出,ResGAN只能产生眼部周围的伪影。后三者虽然试图让人脸看着更好看些,但是痕迹过于明显。
而这个强化学习框架的效果,会让人脸美化得更加自然。
GAN和PS如何做结合?
研究人员提出的强化学习框架如下图所示。
判别器D的训练过程和一般GAN中的判别器是一样的。
也就是说,判别器D是用来学习将生成图像和真实图像作区分。
而生成器将原始图像作为输入,并输出一些参数,提供给PS软件。
由于PS软件是不可微分的,所以研究人员利用强化学习来训练生成器。
值得注意的是,在现有的图像处理RL方法中,agent接收图像后按顺序决定操作,而这个方法的agent接收图像并只选择一个操作。
于是,这个方法的生成器和判别器分别如下所示。
研究人员交替地训练判别器和生成器,并且还创建了一个缓冲区(replay buffer),用于保存训练过程中生成的图像。
研究小结
总的来说,这项研究所提出的强化学习框架,解决了如下问题:
由于神经网络结构的原因,生成图像会存在一些伪影;
在不配对图像增强方法中,生成的图像分辨率有限;
增强效果无法解释。
而这个RL框架,可以有效的将GAN和PS进行结合,从而得到更好的图像增强效果。
传送门
论文地址:
https://arxiv.org/pdf/1912.07833.pdf
— 完 —
- 豆包升级了“眼睛”,看APP截图就能写代码了!超低价让多模态AI普惠2024-12-19
- 云计算一哥的生成式AI之道:Choice Matters2024-12-18
- 这届AI创业:不敲一行代码,营收突破百万级2024-12-20
- 挑战高考数学完胜!商汤日日新多模态大模型权威评测第一2024-12-19