自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛拿下NeurIPS優(yōu)秀論文,字節(jié)就開源VAR文生圖版本,拿下SOTA擊敗擴(kuò)散模型

人工智能
新開源模型Infinity,字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)出品,超越Diffusion Model。值得一提的是,這其實(shí)是從前段時間斬獲NeurIPS最佳論文VAR衍生而來的文生圖版本。

自回歸文生圖,迎來新王者——

新開源模型Infinity,字節(jié)商業(yè)化技術(shù)團(tuán)隊(duì)出品,超越Diffusion Model。

圖片

值得一提的是,這其實(shí)是從前段時間斬獲NeurIPS最佳論文VAR衍生而來的文生圖版本。

圖片

在預(yù)測下一級分辨率的基礎(chǔ)上,Infinity用更加細(xì)粒度的bitwise tokenizer建模圖像空間。同時他們將詞表擴(kuò)展到無窮大,增大了Image tokenizer的表示空間,大大提高了自回歸文生圖的上限。他們還將模型大小擴(kuò)展到20B。

結(jié)果,不僅在圖像生成質(zhì)量上直接擊敗了Stabel Diffusion3,在推理速度上,它完全繼承了VAR的速度優(yōu)勢,2B模型上比同尺寸SD3快了3倍,比Flux dev快14倍,8B模型上比同尺寸的SD3.5快了7倍。

圖片

目前模型和代碼都已開源,也提供了體驗(yàn)網(wǎng)站。

來看看具體細(xì)節(jié)。

自回歸文生圖新王者

在過去自回歸模型和擴(kuò)散模型的對比中,自回歸模型廣受詬病的問題是生成圖像的畫質(zhì)不高,缺乏高頻細(xì)節(jié)。

在這一背景下,Infinity生成的圖像細(xì)節(jié)非常豐富,還能夠生成各種長寬比圖像,解掉了大家過去一直疑慮的VAR不支持動態(tài)分辨率的問題。

具體性能上面,作為純粹的離散自回歸文生圖模型,Infinity在一眾自回歸方法中一鳴驚人,遠(yuǎn)遠(yuǎn)超過了HART、LlamaGen、Emu3等方法。

圖片

圖片

與此同時,Infinity也超過了SDXL,Stable diffusion3等Diffusion路線的SOTA方法。

人類評測上,用戶從畫面整體、指令遵循、美感三個方面對于Infinity生成圖像和HART、PixArt-Sigma、SD-XL、SD3-Meidum生成圖像進(jìn)行了雙盲對比。

其中HART是一個同樣基于VAR架構(gòu),融合了diffusion和自回歸的方法。PixArt-Sigma、SD-XL、SD3-Meidum是SOTA的擴(kuò)散模型。

Infinity以接近90%的beat rate擊敗了HART模型。顯示了Infinity在自回歸模型中的強(qiáng)勢地位。

此外,Inifnity以75%、80%、65%的beat rate擊敗了SOTA的擴(kuò)散模型如PixArt-Sigma、SD-XL、SD3-Meidum等,證明了Infinity能夠超過同尺寸的擴(kuò)散模型。

圖片

那么,這背后具體是如何實(shí)現(xiàn)的?

Bitwise Token自回歸建模提升了模型的高頻表示

大道至簡,Infinity的核心創(chuàng)新,就是提出了一個Bitwise Token的自回歸框架——

拋棄原有的“Index-wise Token”,用+1或-1構(gòu)成的細(xì)粒度的“Bitwise Token”預(yù)測下一級分辨率。

在這個框架下,Infinity表現(xiàn)出很強(qiáng)的scaling特性,通過不斷地scaling視覺編碼器(Visual Tokenizer)和transformer,獲得更好的表現(xiàn)。

圖片

在Bitwise Token自回歸框架中,關(guān)鍵技術(shù)是一個多尺度的比特粒度視覺編碼器(Visual Tokenizer)。

它將H×W×3大小的圖像編碼、量化為多尺度的特征:1×1×d,2×2×d,…,h×w×d。其中d是視覺編碼器的維度,每一維是+1或-1。詞表的大小是2d。過去的方法中,會繼續(xù)將d維的特征組合成一個Index-wise Token(索引的范圍是0~2d-1,用這個Index-wise Token作為標(biāo)簽進(jìn)行多分類預(yù)測,總共類別是詞表大小,即2d。

Index-wise Token存在模糊監(jiān)督的問題。如下圖所示,當(dāng)量化前的連續(xù)特征發(fā)生微小擾動后(0.01變成-0.1),Index-wise Token的標(biāo)簽會發(fā)生劇烈變化(9變成1),使得模型優(yōu)化困難。

而Bitwise Token僅有一個比特標(biāo)簽發(fā)生翻轉(zhuǎn),其他比特標(biāo)簽仍能提供穩(wěn)定監(jiān)督。相比于Index-wise Token,Bitwise Token更容易優(yōu)化。

圖片

研究人員在相同的實(shí)驗(yàn)設(shè)置下對比了Index-wise Token和Bitwise Token。

結(jié)果顯示,預(yù)測Bitwise Token能夠讓模型學(xué)到更細(xì)粒度的高頻信號,生成圖像的細(xì)節(jié)更加豐富。

圖片

無窮大詞表擴(kuò)展了Tokenizer表示空間

從信息論的角度來看,擴(kuò)散模型采用的連續(xù)Visual Tokenizer表示空間無窮大,而自回歸模型采用的離散Visual Tokenizer表示空間有限。

這就導(dǎo)致了自回歸采用的Tokenizer對于圖像的壓縮程度更高,對于高頻細(xì)節(jié)的還原能力差。為了提升自回歸文生圖的上限,研究人員嘗試擴(kuò)大詞表以提升Visual Tokenizer的效果。

但是基于Index-wise Token的自回歸框架非常不適合擴(kuò)大詞表?;贗ndex-wise Token的自回歸模型預(yù)測Token的方式如下圖左邊所示,模型參數(shù)量和詞表大小正相關(guān)。

當(dāng)d=32的時候,詞表大小為232,預(yù)測Index-wise Token的transformer分類器需要有2048×232=8.8×1012=8.8T的參數(shù)量!

光一個分類器的參數(shù)量就達(dá)到了50個GPT3的參數(shù)量,這種情況下擴(kuò)充詞表到無窮大顯然是不可能的。

圖片

研究人員的解決方法簡單粗暴,如上圖右邊所示,丟掉索引,直接預(yù)測比特!有了Bitwise Token自回歸建模后,研究人員采用d個+1或-1的二分類器,并行地預(yù)測下一級分辨率+1或-1的比特標(biāo)簽。做出這樣的改變后,參數(shù)量一下從8.8T降到了0.13M。所以說,采用Bitwise Token建模自回歸后,詞表可以無限大了。

有了無限大詞表,離散化的Visual Tokenizer落后于連續(xù)的問題似乎沒有這么嚴(yán)重了:

圖片

如上表所示,當(dāng)詞表大小放大到后,離散的視覺編碼器在ImageNet上重建的FID居然超過了Stable Diffusion提出的連續(xù)的VAE。

從可視化效果來看,無限大詞表(Vd=232),相比于小詞表,對于高頻細(xì)節(jié)(如上圖中的人物眼睛、手指)重建效果有質(zhì)的提升

Model Scaling穩(wěn)步提升效果

解決了制約生成效果天花板的視覺編碼器的問題后,研究人員開始了縮放詞表和縮放模型的一系列實(shí)驗(yàn)。

研究發(fā)現(xiàn),對于125M的小模型,使用Vd=216的小詞表,相比于Vd=232的大詞表,收斂的更快更好。

但是隨著模型的增大,大詞表的優(yōu)勢逐漸體現(xiàn)出來。當(dāng)模型增大到2B并且訓(xùn)練迭代超過50K以后,大詞表取得了更好的效果。最終Infinity采取Vd=232的大詞表,考慮到232已經(jīng)超過了int32的數(shù)值范圍,可以認(rèn)為是無窮大的數(shù),這也是Infinity的命名由來。

總結(jié)來看,(無窮)大詞表加大模型,加上充分的訓(xùn)練后,效果要明顯好于小詞表加大模型。

圖片

除了scaling詞表以外,研究人員還做了對Infinity模型大小的scaling實(shí)驗(yàn)。

他們在完全相同的實(shí)驗(yàn)設(shè)定下比較了125M、361M、940M、2.2B、4.7B五個不同尺寸大小的模型。

可以看到,隨著模型的增大和訓(xùn)練資源的增加,驗(yàn)證集損失穩(wěn)步下降,驗(yàn)證集準(zhǔn)確率穩(wěn)定提升。另外,研究人員發(fā)現(xiàn)驗(yàn)證集Loss和各項(xiàng)測試指標(biāo)存在很強(qiáng)的線性關(guān)系,線性相關(guān)系數(shù)高達(dá)0.98。

圖片

下圖每個九宮格對應(yīng)同一個提示詞在不同模型大小、不同訓(xùn)練步數(shù)的生成圖像。

  • 從上往下分別是:逐漸增大模型規(guī)模,對應(yīng)125M、1B、5B模型生成的圖像。
  • 從左往右分別是模型訓(xùn)練的步數(shù)逐漸增多后生成的圖像。

我們能明顯看出:Infinity有著良好的scaling特性,更大的模型、更多的訓(xùn)練,能夠生成語義結(jié)構(gòu)、高頻細(xì)節(jié)更好的圖像。

圖片

另外Infinity還提出了比特自我矯正技術(shù),讓視覺自回歸文生圖模型具有了自我矯正的能力,緩解了自回歸推理時的累計(jì)誤差問題。

圖片

Infinity還能夠生成各種長寬比圖像,解決了VAR不支持動態(tài)分辨率的問題。

下圖列出了Infinity和其他文生圖模型對比的例子。

可以看到,Infinity在指令遵循,文本渲染、畫面美感等方面都具有更好的表現(xiàn)。

圖片

除了效果以外,Infinity完全繼承了VAR預(yù)測下一級分辨率的速度優(yōu)勢,相比于擴(kuò)散模型在推理速度上具有顯著的優(yōu)勢。

圖片

2B模型生成1024x1024的圖像用時僅為0.8s,相比于同尺寸的SD3-Medium提升了3倍,相比于12B的Flux Dev提升了14倍。8B模型比同尺寸的SD3.5快了7倍。20B 模型生成1024x1024的圖像用時3s,比12B的Flux Dev還是要快將近4倍。

目前,在GitHub倉庫中,Infinity的訓(xùn)練和推理代碼、demo、模型權(quán)重均已上線。

Infinity 2B和20B的模型都已經(jīng)開放了網(wǎng)站體驗(yàn),感興趣的同學(xué)可以試一試效果。

開源地址: https://github.com/FoundationVision/Infinity項(xiàng)目頁面: https://foundationvision.github.io/infinity.project/體驗(yàn)網(wǎng)站: https://opensource.bytedance.com/gmpt/t2i/invite。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2025-04-27 08:30:00

2025-05-12 09:00:00

2024-12-04 13:30:00

2024-05-10 07:58:03

2025-04-07 08:50:00

模型AI數(shù)據(jù)

2022-12-25 13:59:09

模型架構(gòu)

2024-02-19 08:35:00

2024-01-12 17:06:50

字節(jié)面試題目

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-12-05 10:00:31

2025-05-16 10:15:06

2024-12-04 12:10:40

2024-11-12 14:00:00

AI編程

2021-09-08 07:18:30

代理模式對象

2024-08-26 09:35:00

模型文生圖

2023-03-13 15:56:00

模型框架

2024-04-30 14:11:00

訓(xùn)練模型

2023-12-29 13:18:23

模型NeRFTICD

2015-10-27 11:00:10

華為愛立信通信
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號