谷歌大招網(wǎng)友玩瘋了!Gemini原生圖像輸出搶先推出,OpenAI一年領(lǐng)先優(yōu)勢歸零
谷歌推出Gemini原生圖像生成,測試版瞬間引爆網(wǎng)絡(luò)。
如果你遲到了,但沒有好的借口,甚至還沒有出家門——只需要一張自拍,然后讓AI把你P到地鐵故障現(xiàn)場。
圖片
也可以憑空生成一個(gè)人物形象,把它放到原神游戲畫面中(不用上傳游戲截圖),讓角色往前走兩步,再把視角往左移,走近一個(gè)建筑,開始爬墻。
圖片
二次元選手最喜歡的玩法,是草稿一句話變線稿,再上色,再上陰影等操作,注意每一步執(zhí)行后人物形象都是保持一致的。
圖片
圖片
有漫畫創(chuàng)作者用它來改變構(gòu)圖視角,同時(shí)保持畫面內(nèi)容的一致性。
圖片
游戲開發(fā)者則可以用一些素材組件自動(dòng)拼成關(guān)卡場景。
圖片
除了精準(zhǔn)遵循指令一鍵P圖之外,還支持圖文混排輸出。
谷歌官方演示了生成菜譜,每個(gè)操作步驟都配上寫實(shí)的圖像,學(xué)起來更直觀。
現(xiàn)在,這些功能都可以在Google AI Studio免費(fèi)試玩。
模型命名很亂,請認(rèn)準(zhǔn)Gemini 2.0 Flash Experimental。
圖片
原生圖像輸出首次開放
目前Gemini 2.0 Flash原生圖像輸出能力還沒有公開技術(shù)細(xì)節(jié),簡短的介紹中只講了“結(jié)合多模態(tài)輸入、增強(qiáng)推理和自然語言理解”。
而其他AI產(chǎn)品語言大多是語言模型把圖像生成模型當(dāng)做工具去調(diào)用,如ChatGPT調(diào)用Dall·E 3,Grok調(diào)用flux.1。
新范式下,Gemini 2.0 Flash的主要優(yōu)勢包括:
- 圖文故事模式:始終保持人物和場景的一致性。也可以中途提意見,讓AI重新講述故事或改變繪畫風(fēng)格。
- 對話式圖像編輯:支持多輪編輯,可以一句話p圖,反復(fù)完善圖像,實(shí)現(xiàn)實(shí)時(shí)協(xié)作和創(chuàng)意探索。
- 基于世界知識的圖像生成:利用大模型內(nèi)置的知識和推理能力,生成與上下文更相關(guān)的圖像
- 改進(jìn)文本渲染:減少拼寫錯(cuò)誤或字符扭曲,適合生成廣告、甚至邀請函。
其實(shí)早在2024年5月,OpenAI總裁Brockman就曾展示過GPT-4o的這種原生多模態(tài)能力,但后來就沒了消息。
現(xiàn)在谷歌搶先部署這項(xiàng)功能,讓網(wǎng)友不禁好奇,出于什么原因讓OpenAI放棄一年以上的領(lǐng)先優(yōu)勢。
圖片
OpenAI員工也只能感嘆,谷歌真的回來了。
圖片
還有隱藏玩法
除常規(guī)玩法之外,還有網(wǎng)友探索出了一種隱藏玩法:用文字提問,要求AI只用圖片回答。
他的問題是“生命的意義是什么”,AI用一系列圖片來表達(dá),畫面逐漸詭異起來,令人毛骨悚然。
圖片
他把整個(gè)過程錄制成視頻,下面一起來看看。
在線試玩https://aistudio.google.com/
參考鏈接:
[1]https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
[2]https://x.com/goodside/status/1900349595718148455
[3]https://x.com/ilumine_ai/status/1900017235898622025
[4]https://x.com/nobisiro_2023/status/1900150873734733859