扩散模型的图像生成主导权终于要被GAN夺回来了。
就在所有人都在庆祝新年的时候,英伟达的一群科学家悄悄升级了StyleGAN系列,生产出了StyleGAN—T的PLUS版本,顿时在网上走红。
无论是在星云爆炸中制造软木塞:
或者基于虚幻引擎风格渲染的森林:
生成只需要将近0.1秒!
很多网友的第一反应是:
甘,一个久违的名字。
在低质量图像生成方面,StyleGAN—T优于扩散模型。
但他也表示,在256×256图像的生成中,仍然是扩散模型的天下。
那么,新的StyleGAN质量如何,它在哪些领域重新具有竞争力。
StyleGAN—T长什么样。
与扩散模型和自回归模型相比,GAN最大的优势是速度。
因此,StyleGAN—T这次也重点研究了大规模文本图像合成,即如何在短时间内由文本生成大量图像。
StyleGAN—T是在StyleGAN—XL的基础上改进而来的。
StyleGAN—XL的参数是StyleGAN3的三倍基于ImageNet训练,可以生成1024×1024的高分辨率图像,并借鉴了StyleGAN2和StyleGAN3的一些架构设计
其总体结构如下:
只有控制参数ψ,才能在剪辑分数变化不大的情况下,提高生成图像的风格多样性。
那么它的产生效果如何呢。
低分辨率图像的超快速生成
在微软的MS COCO数据集上,StyleGAN—T在64×64分辨率下实现了最高的FID。
但是在256×256的更高分辨率的一代中,StyleGAN—T仍然比不过过扩散模型,但是比同样使用GAN的拉菲好很多:
如果进一步将生成时间和FID分别作为纵轴和横轴,在同一个图上进行比较,可以更直观地比较生成质量和速度。
可以看出,StyleGAN—T可以以10FPS的速度生成256×256分辨率的图像,FID值接近LDM,GLIDE等扩散模型。
添加或更改特定形容词后,生成的图像确实符合描述:
即使是快速生成的图像,也能快速控制风格,如梵高风格绘画或动画,
当然也有偶尔失败的情况,最典型的就是生成有文字要求的图像时,无法显示正常的文字:
阿克塞尔·绍尔,图宾根大学博士生,卡尔斯鲁厄理工学院硕士目前感兴趣的研究方向有深度生成模型,神经网络架构和实证研究
但在这波GAN掀起的复兴浪潮下,也出现了StyleGAN时代即将结束的声音。
有网友感慨:
在此之前,最新的StyleGAN生成的图像总是让我们感到惊讶,而现在它只给我们快的印象。
你觉得甘还能撼动扩散模型的霸主地位吗。
纸张地址:
项目地址: