首页 > 综合

GAN卷土重来:10亿参数的GigaGAN效果堪比扩散模型

互联网 2023-03-29 18:22:21


(相关资料图)

点蓝色字关注“机器学习算法工程师”

设为星标,干货直达!

自从 DALL·E 2 之后,在图像生成方面扩散模型替代GAN成了主流方向,比如开源的文生图模型stable diffusion也是基于diffusion架构的。近日, Adobe研究者在论文Scaling up GANs for Text-to-Image Synthesis提出了参数量为10亿(1B)的GAN模型:GigaGAN,其在文生图效果上接近扩散模型效果,而且推理速度更快,生成512x512大小图像只需要0.13s,生成16M像素图像只需要 3.66s。同时GigaGAN也支持latent空间的编辑功能,比如latent插值,风格混合,以及向量运算等。

GigaGAN改进了StyleGAN架构,采用两阶段训练策略:一个是64x64的图像生成器和一个512x512的图像超分2器,其图像生成器架构如下所示(这里也是采用CLIP text encoder来引入text condition):GigaGAN在 LAION2B-en和 COYO-700M数据集上训练,其在COCO数据集上的FID达到9.09,超过stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生图能力,还可以实现可控的合成,比如风格混合,如下图所示:更多效果图和技术细节见论文https://arxiv.org/abs/2303.05511和网站https://mingukkang.github.io/GigaGAN/
上一篇 下一篇
热文推荐 更多

GAN卷土重来:10亿参数的GigaGAN效果堪比扩散模型

2023-03-29

送日本客户什么礼物好,来几款走心的

2023-03-29

香蕉简笔画图片 画法(香蕉简笔画)

2023-03-29

秀强股份(300160)3月29日主力资金净卖出420.72万元

2023-03-29

广东佛山市三水区发生3.4级地震

2023-03-29

世界速递!被马化腾视为“全场的希望”,微信视频号要大干一场,推付费订阅、创作分成

2023-03-29

泽璟制药:目前已经完成盐酸杰克替尼原料药和制剂生产现场核查,该产品注册审评工作目前进展顺利

2023-03-29

【全球独家】衡水加快建设京津冀科技创新支点城市

2023-03-29

聊聊如何将IJ项目提交到Gitee

2023-03-29

开发者提交PR请求,为微软Windows Terminal终端引入“便携模式” 天天精选

2023-03-29

天天头条:成都先导股价跌70%八股东拟套现15亿 净利三连降研发投入缩水突围待考

2023-03-29

校地合作 共育未来丨这个大学生实践基地揭牌-焦点快播

2023-03-29

环球资讯:元祖股份苦寻“第三极”

2023-03-29

证券日报评论:告别23倍市盈率限制,主板IPO估值仍将受到市场化机制约束

2023-03-29

今日快讯:你玩亚索我玩石头人什么梗(你玩亚索我玩石头人)

2023-03-29

环球即时:东拉山大峡谷风景区电话_东拉山大峡谷风景区

2023-03-28

国产科幻电影《流浪地球2》将于5月在韩国上映 世界快报

2023-03-28

涉案超33亿!中延集团董事长冯翔集资诈骗案一审开庭 焦点热议

2023-03-28

全球今亮点!中银e贷额度提升技巧 提额成功的都是这样入手的

2023-03-28

石基信息涨停 机构净卖出2.58亿元

2023-03-28