自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像分詞器造反了!華為 Selftok:自回歸內(nèi)核完美統(tǒng)一擴(kuò)散模型,觸發(fā)像素自主推理

人工智能 新聞
華為盤古多模態(tài)生成團(tuán)隊(duì)破局思路:讓圖像學(xué)會(huì)「說(shuō) AR 的語(yǔ)言」。團(tuán)隊(duì)指出:視覺(jué)要想復(fù)刻 LLM 的成功,必須徹底重構(gòu) token 化范式!

自回歸(AR)范式憑借將語(yǔ)言轉(zhuǎn)化為離散 token 的核心技術(shù),在大語(yǔ)言模型領(lǐng)域大獲成功 —— 從 GPT-3 到 GPT-4o,「next-token prediction」以簡(jiǎn)單粗暴的因果建模橫掃語(yǔ)言領(lǐng)域。但當(dāng)我們將目光轉(zhuǎn)向視覺(jué)生成,卻發(fā)現(xiàn)這條黃金定律似乎失效了…… 

現(xiàn)有方案硬生生將圖像網(wǎng)格化為空間 token,強(qiáng)行塞入自回歸架構(gòu)。這像極了 NLP 早期用 CNN 建模語(yǔ)言的彎路 —— 當(dāng)視覺(jué)表達(dá)被空間局部性束縛,因果鏈被切割得支離破碎,如何能真正擁抱 AR 的本質(zhì)?

華為盤古多模態(tài)生成團(tuán)隊(duì)破局思路:讓圖像學(xué)會(huì)「說(shuō) AR 的語(yǔ)言」。團(tuán)隊(duì)指出:視覺(jué)要想復(fù)刻 LLM 的成功,必須徹底重構(gòu) token 化范式!基于昇騰 AI 基礎(chǔ)軟硬件的 Selftok 技術(shù),通過(guò)反向擴(kuò)散過(guò)程將自回歸先驗(yàn)融入視覺(jué) token,讓像素流轉(zhuǎn)化為嚴(yán)格遵循因果律的離散序列。

圖片

  • 項(xiàng)目主頁(yè):https://Selftok-team.github.io/report/
  • ArXiv 鏈接:https://arxiv.org/abs/2505.07538
  • Github鏈接: https://github.com/selftok-team/SelftokTokenizer

Selftok 的突破在于:

  • 反向擴(kuò)散鍛造因果 token—— 通過(guò)擴(kuò)散過(guò)程的時(shí)序分解,讓視覺(jué)表達(dá)徹底 AR 化
  • 強(qiáng)化學(xué)習(xí)友好型 token—— 首個(gè)嚴(yán)格滿足貝爾曼方程 (Bellman Equation) 的視覺(jué)離散表征
  • 純 AR 大一統(tǒng)架構(gòu) —— 無(wú)需復(fù)雜模塊堆疊,優(yōu)雅地實(shí)現(xiàn) LLM 和 diffusion 的融合,單憑 next-token prediction 統(tǒng)一跨模態(tài)生成

實(shí)驗(yàn)結(jié)果實(shí)現(xiàn):

  • 視覺(jué)重建新突破:Imagenet 上重建指標(biāo)達(dá)到離散 token SoTA
  • 跨模態(tài)生成新高度:無(wú)需圖文對(duì)齊數(shù)據(jù)!僅憑視覺(jué) token 策略梯度,GenEval 生成質(zhì)量超越 GPT-4o
  • 親和昇騰計(jì)算架構(gòu):昇騰原生算子融合 + MindSpeed 框架,實(shí)現(xiàn)端到端原生開發(fā)

值得一提的是,該系列工作的開篇論文《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》也入選了 CVPR 2025 最佳論文候選(Best Paper Candidate, 14/13008,0.1%)。

介紹

當(dāng)前行業(yè)共識(shí)認(rèn)為大語(yǔ)言模型(LLMs)正面臨語(yǔ)言數(shù)據(jù)瓶頸,而圖像、視頻等非語(yǔ)言數(shù)據(jù)仍存在巨大開發(fā)潛力。技術(shù)圈普遍認(rèn)為,構(gòu)建統(tǒng)一的多模態(tài)架構(gòu)將是釋放 AI 更強(qiáng)涌現(xiàn)能力的關(guān)鍵。要將視覺(jué)等非語(yǔ)言模態(tài)整合進(jìn)類似 LLMs 的離散自回歸模型(discrete AR,dAR),核心挑戰(zhàn)在于將連續(xù)視覺(jué)信號(hào)轉(zhuǎn)化為離散 Token。華為盤古多模態(tài)生成團(tuán)隊(duì)首創(chuàng)不依賴空間先驗(yàn)的視覺(jué) Token 方案,通過(guò)與語(yǔ)言模態(tài)聯(lián)合訓(xùn)練構(gòu)建視覺(jué) - 語(yǔ)言模型(VLM),在圖像生成、圖像編輯等任務(wù)中展現(xiàn)出卓越能力。其強(qiáng)化學(xué)習(xí)優(yōu)化后的生成性能已超越 AR 范式現(xiàn)有模型,開創(chuàng)了多模態(tài)自回歸訓(xùn)練的新范式。

為何選擇離散化視覺(jué) token?當(dāng)前主流方案采用語(yǔ)言 dAR 與圖像連續(xù)自回歸模型(continuous AR, cAR)的混合架構(gòu),認(rèn)為連續(xù)表征能最小化圖像壓縮損失。但大量研究表明:離散表征同樣可保持高精度,而連續(xù)表征存在三重致命缺陷:其一,預(yù)測(cè)穩(wěn)定性差,cAR 采用均方誤差(MSE)訓(xùn)練的向量回歸器較 dAR 的交叉熵(XE)分類器更易出錯(cuò),這迫使多數(shù) cAR 放棄因果預(yù)測(cè)范式,轉(zhuǎn)向雙向建模,從根本上違背 decoder-only 架構(gòu)的自回歸設(shè)計(jì)哲學(xué);其二,強(qiáng)化學(xué)習(xí)復(fù)雜度激增,連續(xù)狀態(tài) - 動(dòng)作空間使馬爾可夫決策過(guò)程從有限轉(zhuǎn)為無(wú)限,策略優(yōu)化難度呈指數(shù)級(jí)上升;其三,解耦能力受限,連續(xù)表征在學(xué)習(xí)過(guò)程中會(huì)帶來(lái)模式坍縮 (視覺(jué)幻覺(jué)),離散可以實(shí)現(xiàn)因子更好的解耦。

圖片

圖 1

為什么選擇摒棄空間先驗(yàn)?早期 CV 研究將空間特征 Token 化視為自回歸建模標(biāo)配,但華為 AIGC Selftok 團(tuán)隊(duì)指出:空間 Token 的因果依賴本質(zhì)與 AR 范式存在根本沖突。如下圖所示,碰撞效應(yīng)導(dǎo)致虛假依賴,編碼任一空間 Token 時(shí)引入與其他所有 Token 的貝葉斯偽相關(guān),破壞 AR 所需的因果圖結(jié)構(gòu);從而導(dǎo)致強(qiáng)化學(xué)習(xí)失序,非 AR 依賴使 Token 預(yù)測(cè)影響歷史狀態(tài),無(wú)法滿足貝爾曼方程,導(dǎo)致策略優(yōu)化陷入局部最優(yōu)困境。實(shí)驗(yàn)證明,非空間 Token 的 RL 效果上限顯著低于 AR Token。

圖片

基于此,Selftok 團(tuán)隊(duì)提出 Self-consistency Tokenizer:通過(guò)擴(kuò)散模型反向過(guò)程的 AR 特性編碼圖像生成軌跡,每個(gè) Token 對(duì)應(yīng)擴(kuò)散步驟的時(shí)間戳(如圖 3)。

圖片

圖 3

該方案實(shí)現(xiàn)三大突破:

1)AR 原生架構(gòu)(自回歸之本):徹底摒棄空間先驗(yàn),保持重建精度同時(shí)提升圖文模態(tài)兼容性,為 dAR-VLM 預(yù)訓(xùn)練與 RL 微調(diào)奠定基礎(chǔ);

2)擴(kuò)散范式統(tǒng)一(擴(kuò)散之法):直接貫通擴(kuò)散模型與自回歸架構(gòu),無(wú)需額外模塊即可完成跨模態(tài)統(tǒng)一。自回歸等價(jià)于遞歸,可像歸并排序算法(下左圖)一樣分而治之。同理,將 x_0→x_1(下右圖)的路徑分解成兩部分,x_0→x_t 由擴(kuò)散模型采樣得到,x_t→x_1 學(xué)習(xí) token;

圖片

圖 3.1

3)推理性能躍升(推理之用):Selftok-Token 完美適配策略優(yōu)化,使 dAR-VLM 獲得類 LLM 的 RL 訓(xùn)練能力。實(shí)驗(yàn)證明,無(wú)監(jiān)督的 Selftok-Zero 在 GenEval 和 DPG-Bench 榜單分別以 92% 和 85.57 分超越基于 Spatial token 的 AR 范式模型,驗(yàn)證了 Selftok token 與 AR 范式的組合威力。

方法簡(jiǎn)述

Tokenizer: Selftok tokenizer 主要由三部分構(gòu)成:encoder,quantizer 與 decoder。整體的結(jié)構(gòu)如圖 4 所示:

圖片

圖 4

Selftok 編碼器采用雙流架構(gòu):圖像分支繼承 SD3 的 VAE 隱空間編碼,文本分支創(chuàng)新性替換為可學(xué)習(xí)連續(xù)向量組以捕捉擴(kuò)散特征,通過(guò)動(dòng)態(tài)掩碼機(jī)制提升計(jì)算效率。核心量化器通過(guò) EMA 更新的 codebook 和獨(dú)創(chuàng)的 "code 偏移監(jiān)測(cè) - 重激活" 機(jī)制,解決傳統(tǒng)訓(xùn)練不均衡問(wèn)題,實(shí)現(xiàn)擴(kuò)散過(guò)程與自回歸建模的統(tǒng)一。解碼器基于 SD3 權(quán)重改進(jìn),文本分支采用 codebook embedding 替代傳統(tǒng)輸入,并通過(guò)時(shí)序感知 token 分配策略(隨 timestep 縮減 token 數(shù)量)強(qiáng)化自回歸特性。為了進(jìn)一步提升推理效率,渲染器通過(guò)引入 "畫布"token 消除 timestep 依賴,在昇騰 910B2 上實(shí)現(xiàn)單卡推理速度從 8.2 秒壓縮至 0.31 秒,同時(shí)完全保留重建質(zhì)量。生成路徑離散化技術(shù)將連續(xù)擴(kuò)散轉(zhuǎn)化為 token 驅(qū)動(dòng)確定性映射,奠定視覺(jué)自回歸建模新范式。 

圖片

圖 6

Selftok 團(tuán)隊(duì)通過(guò)可視化對(duì)比揭示了 token 表征的本質(zhì)差異:

1)漸進(jìn)重建(左→右):通過(guò)逐步掩碼輸入 token 序列測(cè)試重建能力。

圖片

VQGAN、FlowMo、VAR 因 token 與圖像塊強(qiáng)綁定,在短序列輸入時(shí)呈現(xiàn)塊狀偽影;而 Selftok 即使保留極少量 token 仍保持全局語(yǔ)義連貫。

2)Token 插值(左→右):通過(guò)逐步替換左右圖像 token 實(shí)現(xiàn)插值。 

圖片

傳統(tǒng)方法因空間局部性產(chǎn)生斷裂形變,Selftok 則實(shí)現(xiàn)平滑語(yǔ)義過(guò)渡,驗(yàn)證了自回歸建模的理論優(yōu)勢(shì)。

Pretrain and SFT:在預(yù)訓(xùn)練階段,模型架構(gòu)基于 LLaMA-3-8B 進(jìn)行擴(kuò)展,在原有語(yǔ)言詞表的基礎(chǔ)上新增了 32,768 個(gè)圖像 token 的詞表。正如前文所述,Selftok dAR-VLM 可以完全復(fù)用現(xiàn)有的 LLM 訓(xùn)練范式與訓(xùn)練框架。具體實(shí)現(xiàn)上,該模型基于昇騰 MindSpeed 框架和昇騰 910B NPU 進(jìn)行訓(xùn)練優(yōu)化,整個(gè)流程被設(shè)計(jì)為兩個(gè)關(guān)鍵階段:

1.多模態(tài)對(duì)齊:這個(gè)階段引入四種數(shù)據(jù)輸入格式(如圖 8 所示)來(lái)幫助模型實(shí)現(xiàn)模態(tài)的對(duì)齊,分別為 text-to-image, image-to-text, image-only 與 text-only,使得模型從 LLM 轉(zhuǎn)變?yōu)?VLM。

圖片

圖 8

2.多任務(wù)對(duì)齊:這個(gè)階段收集了高質(zhì)量的圖像與文本數(shù)據(jù)對(duì)模型在三類任務(wù)(如圖 8 所示)上進(jìn)行監(jiān)督微調(diào)(sft):text-to-image, image-editing 與 image-understanding,進(jìn)一步提升模型的能力上限并擴(kuò)展模型的能力邊界。此外針對(duì) AR token 的特性,Selftok 團(tuán)隊(duì)也設(shè)計(jì)了新的推理策略,會(huì)根據(jù)當(dāng)前圖像 token 的熵來(lái)確定是否進(jìn)行 logit adjustment。新的推理策略也幫助模型進(jìn)一步提升了圖像生成的效果。

圖片

公式 1

RL:Selftok 團(tuán)隊(duì)首先證明了 AR tokens 能夠推導(dǎo)出貝爾曼方程,進(jìn)而證明采用策略優(yōu)化的 RL 算法具有最優(yōu)解。在此理論基礎(chǔ)上,選擇使用 GRPO 算法對(duì)模型進(jìn)行優(yōu)化。不同于數(shù)學(xué)問(wèn)題或代碼生成這類能夠獲得精確 reward 的任務(wù),文生圖任務(wù)難以精確的評(píng)估生成效果與指令遵循能力。為了解決這個(gè)問(wèn)題,Selftok 團(tuán)隊(duì)設(shè)計(jì)了兩類獎(jiǎng)勵(lì)函數(shù):基于程序與基于 VQA 任務(wù)?;诔绦虻莫?jiǎng)勵(lì)函數(shù)能夠有效的評(píng)估生成圖像中的物體屬性、空間關(guān)系、數(shù)量等是否與 prompt 相符合,團(tuán)隊(duì)使用目標(biāo)檢測(cè)模型來(lái)檢測(cè)上述內(nèi)容,并提高目標(biāo)檢測(cè)的閾值,在提升圖文一致性的同時(shí)顯著的提升了圖像內(nèi)容的合理性與美感;基于 VQA 任務(wù)的獎(jiǎng)勵(lì)函數(shù)面向更加通用的場(chǎng)景,首先 prompt 會(huì)被分解為多個(gè)問(wèn)題,隨后使用 Internvl 與 GPT-4o 來(lái)回答這些問(wèn)題,并計(jì)算出最終的 reward。

實(shí)驗(yàn)結(jié)果顯示基于程序的獎(jiǎng)勵(lì)函數(shù)能夠更加有效的提升模型的表現(xiàn),在 GenEval Bench 上 Selftok-Zero 顯著的優(yōu)于包括 GPT-4o 在內(nèi)的其他所有模型。

結(jié)果

Tokenizer 結(jié)果:Selftok tokenizer 在 ImageNet 上的多個(gè)重建指標(biāo)都達(dá)到了 sota,相比于其他的 tokenizer,Selftok tokenizer 對(duì)細(xì)節(jié)的重建效果更好,也更加貼近原始圖片,量化結(jié)果如表 1 所示。

圖片

表 1

文生圖結(jié)果:華為盤古多模態(tài)生成團(tuán)隊(duì)在 GenEval 與 DPG 兩個(gè) benchmark 上評(píng)測(cè)文生圖的的表現(xiàn)。其中在 GenEval Benchmark 上,基于 Selftok-sft 模型 RL 后的 sefltok-zero 大幅領(lǐng)先包括 GPT-4o 在內(nèi)的所有模型,達(dá)到 92 的分?jǐn)?shù)。相比與 sft 模型,經(jīng)過(guò) RL 后的模型在多個(gè)子任務(wù)上都達(dá)到 SOTA,且大幅領(lǐng)先其他模型。如表 2 所示:

表 2

在 DPG Benchmark 上,Selftok-zero 僅次于 HiDream-I1,并在多個(gè)子項(xiàng)上達(dá)到 sota。相比于 Selftok-sft,Selftok-zero 的表現(xiàn)全面提升,進(jìn)一步證明了 Selftok token 在 RL 算法上的有效性。結(jié)果如表 3 所示:

圖片

表 3

可視化結(jié)果如圖 9 所示:

圖片

圖 9 

圖像編輯結(jié)果:Selftok 團(tuán)隊(duì)還在 PIE-Bench 上檢測(cè)了模型的圖像編輯能力,結(jié)果顯示 Selftok 模型的編輯效果在編輯模型中也處于領(lǐng)先地位,量化指標(biāo)如表 4 所示,編輯過(guò)程可視化結(jié)果如圖 10。

圖片

表 4

圖 10

在多輪編輯任務(wù)中,Selftok 展示了精確的理解能力與非編輯區(qū)域的保持能力,編輯指令的遵循能力能夠與 GPT-4o,Gemini-2.0 等匹配,如圖 11 所示:


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-25 09:04:12

2024-04-26 12:51:48

2024-11-12 13:10:49

2025-03-25 12:44:24

2024-10-30 14:10:00

圖像生成模型

2025-02-27 13:45:00

2021-09-03 11:26:39

分詞器ElasticSear

2025-04-21 08:20:00

視覺(jué)模型訓(xùn)練

2024-12-23 13:30:00

2025-05-16 13:18:37

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2025-04-21 09:10:00

2024-03-11 00:20:00

模型論文

2022-03-14 10:53:12

谷歌模型研究

2023-06-06 14:09:32

模型開源

2024-10-23 14:04:24

2023-01-08 13:22:03

模型

2025-04-09 09:08:34

2024-08-26 07:40:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)