首頁 行業(yè) 活動 項(xiàng)目 快訊 文娛 時(shí)尚 娛樂 科技 汽車 綜合 生活

焦點(diǎn)資訊:GAN卷土重來:10億參數(shù)的GigaGAN效果堪比擴(kuò)散模型

2023-04-25 20:55:47 來源:程序員客棧


(資料圖片)

點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師”

設(shè)為星標(biāo),干貨直達(dá)!

自從 DALL·E 2 之后,在圖像生成方面擴(kuò)散模型替代GAN成了主流方向,比如開源的文生圖模型stable diffusion也是基于diffusion架構(gòu)的。近日, Adobe研究者在論文Scaling up GANs for Text-to-Image Synthesis提出了參數(shù)量為10億(1B)的GAN模型:GigaGAN,其在文生圖效果上接近擴(kuò)散模型效果,而且推理速度更快,生成512x512大小圖像只需要0.13s,生成16M像素圖像只需要 3.66s。同時(shí)GigaGAN也支持latent空間的編輯功能,比如latent插值,風(fēng)格混合,以及向量運(yùn)算等。

GigaGAN改進(jìn)了StyleGAN架構(gòu),采用兩階段訓(xùn)練策略:一個(gè)是64x64的圖像生成器和一個(gè)512x512的圖像超分2器,其圖像生成器架構(gòu)如下所示(這里也是采用CLIP text encoder來引入text condition):GigaGAN在 LAION2B-en和 COYO-700M數(shù)據(jù)集上訓(xùn)練,其在COCO數(shù)據(jù)集上的FID達(dá)到9.09,超過stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生圖能力,還可以實(shí)現(xiàn)可控的合成,比如風(fēng)格混合,如下圖所示:更多效果圖和技術(shù)細(xì)節(jié)見論文https://arxiv.org/abs/2303.05511和網(wǎng)站https://mingukkang.github.io/GigaGAN/
關(guān)鍵詞:

上一篇:現(xiàn)代農(nóng)業(yè)裝備應(yīng)用技術(shù)_關(guān)于現(xiàn)代農(nóng)業(yè)裝備應(yīng)用技術(shù)介紹

下一篇:卓朗科技2022年?duì)I收9.06億元,凈利潤同比下降48.46%|年報(bào)|世界快報(bào)

責(zé)任編輯:

最近更新

點(diǎn)擊排行
推薦閱讀