自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)開源、原生多模態(tài)生成大模型:一鍵生成 「煎雞蛋」圖文菜譜

人工智能 新聞
Anole 不僅是一個(gè)強(qiáng)大的工具,更是為未來研究提供了沃土,為 AI 社區(qū)構(gòu)建了一個(gè)穩(wěn)固的資源和基礎(chǔ)設(shè)施平臺(tái),使其能夠在此基礎(chǔ)上不斷創(chuàng)新和發(fā)展。

生成式人工智能研究實(shí)驗(yàn)室(GAIR,主頁:https://plms.ai/)由上海交通大學(xué)劉鵬飛副教授2023年4月回國(guó)創(chuàng)建,是國(guó)內(nèi)首個(gè)聚焦于生成式人工智能的高校研究組。匯聚了來自于CMU、復(fù)旦、交大(ACM班、IEEE試點(diǎn)班等)等頂尖高校的年輕本碩博人才。實(shí)驗(yàn)室專注于三大核心領(lǐng)域:大模型基礎(chǔ)研究、對(duì)齊系統(tǒng)和社會(huì)影響,致力于培養(yǎng)頂尖人工智能人才(具有原創(chuàng)、批判精神等)、開發(fā)尖端的生成式人工智能技術(shù),賦能人類解決復(fù)雜問題,提升人類生活質(zhì)量。

自LLaMa自回歸文本生成大模型耀眼登場(chǎng)以來,整個(gè)AI界翹首以盼,期待一個(gè)能夠真正實(shí)現(xiàn)原生、自回歸圖文生成的開源大模型。17個(gè)月的漫長(zhǎng)等待,我們見證了以文本為核心的LLaVa的崛起,目睹了基于Diffusion的Dalle的驚艷,卻始終未能一睹那個(gè)能夠完美融合文字與圖像的模型真容。

直到今天,Anole的誕生,終于填補(bǔ)了這一空白,滿足了AI研究者和開發(fā)者的殷切期盼,讓每個(gè)人都可以用開發(fā)LLaMa的方式去開發(fā)多模態(tài)大模型。

想象一下,你只需敲擊幾個(gè)鍵盤,就能喚醒一位虛擬大廚,為你展示一道完美煎蛋的每一個(gè)精妙步驟。這不再是科幻,而是由上海交通大學(xué)GAIR團(tuán)隊(duì)帶來的創(chuàng)新成果——Anole模型。

Anole是多模態(tài)大模型領(lǐng)域發(fā)展的一次重要技術(shù)突破,作為全球首個(gè)完全開源、自回歸、原生的(文本與圖片一起從頭訓(xùn)練)多模態(tài)大模型。無需復(fù)雜的擴(kuò)散模型,Anole憑借純粹的"token"自回歸預(yù)測(cè),就能實(shí)現(xiàn)文字與圖像的無縫交織。如圖所示,當(dāng)你在Anole的界面上輸入"用圖片和文字講解煎雞蛋的每一步"時(shí),它會(huì)瞬間化身為你的私人廚藝導(dǎo)師。一系列生動(dòng)形象的步驟圖隨即呈現(xiàn),每一幅圖都配有清晰明了的文字說明,仿佛一位耐心的大廚在為你量身定制教程。

圖片

這僅僅是Anole眾多強(qiáng)大功能中的一個(gè)。接下來,讓我們深入了解這個(gè)創(chuàng)新的多模態(tài)生成模型及其背后的技術(shù)。

圖片

  • 項(xiàng)目主頁:https://gair-nlp.github.io/anole
  • Github: https://github.com/GAIR-NLP/anole
  • Huggingface: https://huggingface.co/GAIR/Anole-7b-v0.1

Anole是首個(gè)能夠?qū)崿F(xiàn)交錯(cuò)圖文生成開源、自回歸、原生訓(xùn)練的大型多模態(tài)模型(無需使用穩(wěn)定擴(kuò)散技術(shù))。雖然它建立在Meta 開源的Chameleon[1]的優(yōu)勢(shì)基礎(chǔ)之上,但Anole新增了生成連貫的交替文本和圖像序列這一復(fù)雜任務(wù)。通過使用精心構(gòu)建的的約6,000張圖像數(shù)據(jù)集進(jìn)行創(chuàng)新性微調(diào),Anole以最少的額外訓(xùn)練實(shí)現(xiàn)了出色的圖像生成和理解能力。這種高效的方法,加上其開源特性,使Anole成為加速多模態(tài)AI研究和開發(fā)的催化劑。初步測(cè)試表明,Anole具有卓越的能力,能夠遵循細(xì)致入微的指令,產(chǎn)生高質(zhì)量的圖像和交錯(cuò)的文本-圖像內(nèi)容,與用戶提示密切吻合。


除了具備常規(guī)多模態(tài)模型的“文本生成”和“多模態(tài)理解”能力外,Anole還展現(xiàn)了出色的圖文交錯(cuò)生成和文本生成圖像的能力。


  • 文本 → 圖片 + 文本:能夠生成圖像并附帶相關(guān)文本描述。除開上文中使用Anole以生成一系列煎蛋步驟的圖片并附上相關(guān)描述文字的例子外。模型還可以生成其他圖文交錯(cuò)的數(shù)據(jù)。這種能力在初步測(cè)試中表現(xiàn)良好,能夠生成有意義的圖像并準(zhǔn)確傳達(dá)文本信息。


圖片

圖片

圖片

  • 文本 → 圖片:能夠根據(jù)文本生成圖像。

指令: A piece of paper with word like "Anole" written on it, and a drawing of an Anole.

生成結(jié)果: 

圖片

指令: An image depicting three cubes stacked on a table. Each cube has a random color and a letter on it.

生成結(jié)果: 

圖片

更多例子:

圖片

圖片

訓(xùn)練技術(shù)

近年來,多模態(tài)AI技術(shù)取得了顯著進(jìn)展,Meta AI推出的Chameleon模型便是其中的代表。Chameleon通過在預(yù)訓(xùn)練期間融合圖像和文本語料的方法,展示了在視覺和語言整合方面的潛力。然而,盡管Chameleon具有突破性,其圖像生成的關(guān)鍵網(wǎng)絡(luò)參數(shù)并未開源,限制了其進(jìn)一步的研究和實(shí)際應(yīng)用。

Chameleon的預(yù)訓(xùn)練數(shù)據(jù)本身就包含了文本和圖像兩種模態(tài),理論上賦予了它圖像生成的能力。我們的目標(biāo)是在不影響其文本理解、生成和多模態(tài)理解能力的前提下,激活這種能力。為實(shí)現(xiàn)這一目標(biāo),我們凍結(jié)了Chameleon的大部分參數(shù),僅對(duì)transformer的輸出頭層中與圖像token ID對(duì)應(yīng)的logits進(jìn)行了微調(diào)。

具體而言,Anole具體如下特性:

  • 快速高效的微調(diào)手段:通過創(chuàng)新的局部微調(diào)方法,只調(diào)整不到40m參數(shù),在短時(shí)間內(nèi)(8 個(gè) A100 GPU 上大約 30 分鐘),便成功激發(fā)出Chameleon的圖像生成能力,使研究人員和開發(fā)者能夠充分利用并基于Chameleon的架構(gòu)進(jìn)行后續(xù)的多模態(tài)AI研究工作。
  • 少即是多(Less is More)的微調(diào)數(shù)據(jù):僅需5,859個(gè)圖片樣本便可有效激發(fā)Chameleon的圖像生成能力,展示了在大型多模態(tài)模型中恢復(fù)復(fù)雜功能的高效性。
  • 全面的微調(diào)和推理代碼:提供了一整套用于微調(diào)、推理Chameleon和Anole的代碼庫,顯著降低了開發(fā)和實(shí)驗(yàn)的門檻。
  • 豐富的資源以提升可及性:提供了豐富的數(shù)據(jù)資源和詳細(xì)的教程,旨在幫助各級(jí)別的研究人員更容易上手和實(shí)驗(yàn)。

圖片

全方位開源

值得注意的是,GAIR團(tuán)隊(duì)已經(jīng)對(duì) Anole項(xiàng)目進(jìn)行完全開源(提供了開源的模型權(quán)重、推理與訓(xùn)練代碼和詳細(xì)使用教程),以確保每個(gè)感興趣的研究者都能重現(xiàn)這些結(jié)果,可以微調(diào)模型,創(chuàng)建自己的風(fēng)格變體。該項(xiàng)目旨在建立和共享一個(gè)具有完整圖文理解和生成能力的多模態(tài)模型,并通過完全開源實(shí)現(xiàn)多模態(tài)技術(shù)民主化,讓更多人可以加入多模態(tài)大模型的開發(fā)中。

當(dāng)前版本(v1.0)具體提供了如下的資源:

  • 模型微調(diào)代碼(基于HuggingFace Trainer)
  • 權(quán)重轉(zhuǎn)換代碼(Hf->Meta & Meta->Hf)
  • 與圖像生成有關(guān)的推理代碼:包括文生圖以及圖文交互
  • 5k+圖片用于微調(diào)模型以賦予其圖像生成的能力

更重要的是,Anole 為學(xué)術(shù)界開啟了一系列重要且富有挑戰(zhàn)性的研究方向。具體而言:

  • 它為探索統(tǒng)一的基于分詞器的多模態(tài)模型(token-based)的性能上限提供了新的途徑,使得與擴(kuò)散模型 (diffusion-based) 等方法的比較成為可能。
  • 同時(shí),它推動(dòng)了高效交錯(cuò)文本-圖像解碼技術(shù)的發(fā)展,這對(duì)實(shí)時(shí)應(yīng)用至關(guān)重要(比如動(dòng)漫生成、教材生成)
  • 此外,Anole 為探索這類復(fù)雜模型的最優(yōu)微調(diào)策略創(chuàng)造了契機(jī),并提出了如何確保生成圖像安全性和倫理使用等亟待解決的問題。

從根本上說,Anole 不僅是一個(gè)強(qiáng)大的工具,更是為未來研究提供了沃土,為 AI 社區(qū)構(gòu)建了一個(gè)穩(wěn)固的資源和基礎(chǔ)設(shè)施平臺(tái),使其能夠在此基礎(chǔ)上不斷創(chuàng)新和發(fā)展。這種開放的方法有望加速多模態(tài) AI 的進(jìn)展,有可能帶來突破性成果,而這些成果在過去因缺乏先進(jìn)模型和技術(shù)的獲取途徑而難以實(shí)現(xiàn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-04-08 14:07:51

Animagine開源

2023-06-06 14:09:32

模型開源

2023-10-10 15:06:00

智能數(shù)據(jù)

2025-05-14 08:51:00

2025-04-22 15:34:08

視頻生成AI

2024-09-27 17:58:26

2023-04-03 10:04:44

開源模型

2024-11-25 14:30:00

2024-02-01 13:03:00

AI模型

2019-10-11 11:00:53

Nginx神器前端

2022-08-02 14:27:01

HDF驅(qū)動(dòng)框架驅(qū)動(dòng)開發(fā)

2024-03-15 14:34:12

Oracle數(shù)據(jù)庫一鍵巡檢

2024-03-25 12:30:18

AI訓(xùn)練開源

2020-12-24 10:20:43

文檔工具語言

2023-12-19 15:45:07

Linux工具

2020-05-11 09:40:47

IDEA代碼神器

2025-03-03 03:35:00

DeepSeekXmind思維導(dǎo)圖

2024-10-14 14:10:00

大模型AI開源

2025-03-19 09:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)