AI視頻新霸主全網(wǎng)翻車(chē),Ilya奧特曼老黃打起來(lái)了!動(dòng)畫(huà)出現(xiàn)詭異狗頭網(wǎng)友笑瘋
昨天誕生的??AI視頻新霸主——Luma AI的Dream Machine??,再次在整個(gè)互聯(lián)網(wǎng)掀起高潮。
網(wǎng)友們昨天還集體表示,要舍棄Pika和Runway了,Dream Machine最好!
借著每個(gè)月免費(fèi)生成三十次的羊毛,大家紛紛試用。但是,其中有不少翻!車(chē)!了!
AI圈大佬奧特曼、老黃和Greg正一團(tuán)和氣地合影,下一秒Greg就突然變臉,一拳揍在奧特曼胸前。隨后三人陷入纏斗模式,現(xiàn)場(chǎng)亂成一團(tuán)。
以及下面這個(gè)OpenAI曾經(jīng)一團(tuán)和氣的大合影——
經(jīng)過(guò)Luma模型的妙手之后,又變成了大亂斗場(chǎng)面。
但其實(shí)Dream Machine并不是一個(gè)有「暴力傾向」的模型,它很少生成打架場(chǎng)面。
比如下面這個(gè),通過(guò)奧斯卡頒獎(jiǎng)禮的合照生成出的視頻,氣氛依舊溫馨。
看來(lái)OpenAI的「宮斗」太明顯,連模型都知道了照片背后的故事。(不會(huì)是Sora給Dream Machine傳了八卦吧)
網(wǎng)友實(shí)測(cè)讓Luma生成動(dòng)畫(huà),發(fā)現(xiàn)畫(huà)面極其詭異——
白色的狗頭迅速出現(xiàn)在身體的各部位,隨后白狗有絲分裂出第二只白狗,最后白狗直接和棕狗實(shí)現(xiàn)了換頭。
果然,四年寒窗無(wú)人問(wèn),一朝翻車(chē)天下知。
而且,有推特網(wǎng)友發(fā)現(xiàn),Luma非常傾向于讓圖片中的人物轉(zhuǎn)身離開(kāi),比如下面這張威利·旺卡。
把各種頭像圖片輸入進(jìn)去,得到也是類(lèi)似的結(jié)果。
這雖然無(wú)傷大雅,但是這種單調(diào)且「我行我素」的生成結(jié)果有些令人惱火,好像是模型怕自己搞出「變臉」,所以干脆讓人物轉(zhuǎn)頭了。
Luma AI表情包
雖然翻車(chē)案例很多,但是創(chuàng)意無(wú)限的網(wǎng)友們還是發(fā)掘出Dream Machine一個(gè)非常有前途的應(yīng)用——生成表情包動(dòng)圖。
比如這張非常著名的模因圖片,經(jīng)常被用于p成各種表情包:
把圖片輸入給Luma的模型,它會(huì)「腦補(bǔ)」出什么畫(huà)面?
是正牌女友生氣吵架?
還是干脆分手另覓新歡?
看出來(lái)Dream Machine的drama特質(zhì)了,腦補(bǔ)出來(lái)的都是大型人性修羅場(chǎng)。
甚至,這個(gè)表情包還舞到了Andrej Karpaty大佬面前,他也表示自己受到了一些AI技術(shù)的震撼。
Luma AI將圖像擴(kuò)展為視頻的新模型確實(shí)是另一回事。我憑直覺(jué)知道這很快就會(huì)成為可能,但看到它并思考未來(lái)的迭代仍然是另一回事。
再輸入一只表情倔強(qiáng)的柴犬照片,就得到了一張完美的動(dòng)圖。
但下面這個(gè)生成結(jié)果相對(duì)平淡,人物轉(zhuǎn)頭后,臉上的表情也消失了。
根據(jù)著名的「地鐵老人看手機(jī)」生成動(dòng)圖后,痛苦的感覺(jué)似乎加劇了。
把圖片生成模型和Luma放在一起用,還會(huì)碰撞出意想不到的效果。
有人突發(fā)奇想,用Midjourney生成一張教皇穿羽絨服的圖片,再讓他走幾步,突然可愛(ài)了起來(lái)。
搭配Stable Diffusiion 3生成的詭異人體圖片,輸出的動(dòng)圖簡(jiǎn)直是「恐怖」效果加倍。
Luma不僅沒(méi)有把畸形的人體糾正過(guò)來(lái),而且將錯(cuò)就錯(cuò)。拉近鏡頭后,人物原本正常的表情都變得令人發(fā)指了。
發(fā)出這些視頻的帖子中,博主還很禮貌地附上了一句「I'm sorry…」,評(píng)論表示,看完就后悔了。
SD 3翻車(chē)
說(shuō)到剛放出的Stable Diffusion 3的「翻車(chē)」圖片,這也是網(wǎng)友們最近的快樂(lè)源泉。
「我很久沒(méi)這么開(kāi)心過(guò)了。」
Stability AI表示,這是他們「迄今為止最復(fù)雜的圖像生成模型」,卻引來(lái)了全網(wǎng)群嘲。生成的一堆「畸形」圖片反而讓人認(rèn)為它大幅退步,落后于Midjourney和DALL-E。
圖片的「畸形」程度有多嚴(yán)重呢?
是看了可以做噩夢(mèng)的地步。
比如,生成出的手指不僅數(shù)量不對(duì),形狀也十分離奇,根本不像人類(lèi)的手指。
這張圖讓人突然想到《瞬息全宇宙》的「香腸手指」設(shè)定。
如果僅僅是手指也還說(shuō)得過(guò)去,畢竟這一直是圖像生成模型的「頑疾」。
然而,SD3已經(jīng)到了連人類(lèi)四肢、軀干都不能好好生成的地步了。
下面這張草地上的人體圖片,幾乎已經(jīng)成為SD3翻車(chē)的標(biāo)志性象征了,全身上下沒(méi)有一個(gè)地方是合理的。
在沙灘上的這兩張,乍一看外形還不錯(cuò),細(xì)看才能發(fā)現(xiàn)有許多恐怖之處。
更匪夷所思的還在下面——
在Reddit的帖子上,網(wǎng)友甚至發(fā)出嘲笑般的質(zhì)疑「這應(yīng)該是個(gè)笑話(huà)吧?」
「一段時(shí)間前,StableDiffusion 還在與 Midjourney 競(jìng)爭(zhēng),現(xiàn)在它看起來(lái)就像一個(gè)笑話(huà)。至少我們的數(shù)據(jù)集是安全和道德的!」
即使與Stability之前發(fā)布的模型相比,也能看出SD3的顯著退步。
有網(wǎng)友用相同的prompt輸入給SD 1.5、SDXL Turbo和SD 3,并比較了這三個(gè)模型的輸出結(jié)果。
最早的SD 1.5即使沒(méi)辦法做到百分百正確、逼真,至少不會(huì)錯(cuò)誤到離譜和「恐怖」的程度。
上一代SDXL Turbo生成的圖片在真實(shí)感之外還做到了構(gòu)圖和光影的美感。
下面的這個(gè)對(duì)比更加明顯,SD3和SDXL的能力仿佛不在一個(gè)世界。
這不禁讓人懷疑,SD3到底怎么了?
有Reddit用戶(hù)認(rèn)為,Stable Diffusion 3的解剖學(xué)失敗是由于Stability堅(jiān)持從訓(xùn)練數(shù)據(jù)中過(guò)濾掉成人內(nèi)容(即NSFW內(nèi)容,not suitable for work)。
「信不信由你,嚴(yán)格審查模型也會(huì)去除人體解剖學(xué)內(nèi)容,所以……這就是發(fā)生的原因?!?/p>
這個(gè)說(shuō)法雖然乍一聽(tīng)不符合直覺(jué),卻有跡可循。
當(dāng)prompt涉及到 訓(xùn)練數(shù)據(jù)集中未能很好代表的概念時(shí),模型就會(huì)根據(jù)自己的理解進(jìn)行最佳解釋。
而SD3生成的恐怖結(jié)果,就是在沒(méi)有足夠訓(xùn)練數(shù)據(jù)時(shí),它眼中的人體合理形態(tài)。
類(lèi)似的問(wèn)題在以前也曾出現(xiàn)過(guò),比如2022年發(fā)布的Stable Diffusion 2.0也無(wú)法很好地表現(xiàn)人體。
當(dāng)時(shí),研究人員很快發(fā)現(xiàn),審查包含裸體的成人內(nèi)容會(huì)嚴(yán)重阻礙模型生成準(zhǔn)確人體解剖學(xué)的能力。
因此,Stability AI 在SD 2.1和SD XL中迅速調(diào)整了策略,才讓模型恢復(fù)了一些因堅(jiān)決過(guò)濾NSFW內(nèi)容而失去的能力。
在模型預(yù)訓(xùn)練期間可能發(fā)生的另一個(gè)問(wèn)題是,用來(lái)從數(shù)據(jù)集中刪除成人圖像的NSFW過(guò)濾器有時(shí)太過(guò)挑剔,意外地刪除了可能并不冒犯的圖像,從而剝奪了模型在某些情況下對(duì)人類(lèi)的描繪。
對(duì)此,有網(wǎng)友猜測(cè)「(SD3)只要圖片中沒(méi)有人類(lèi)就能正常工作,我認(rèn)為他們改進(jìn)的NSFW過(guò)濾器把所有類(lèi)人形象都當(dāng)成了NSFW。」
Stability AI深陷泥沼
Stability在今年2月宣布了Stable Diffusion 3,并計(jì)劃推出多個(gè)版本。
最新發(fā)布這一版被稱(chēng)為「Medium」,有2B參數(shù)。模型的權(quán)重已經(jīng)開(kāi)源,既能從Hugging Face下載,也能通過(guò)Stability Platform進(jìn)行實(shí)驗(yàn)。
論文地址:https://arxiv.org/abs/2112.10752
2月官宣后不久,SD3 模型權(quán)重的發(fā)布卻延遲了,這激起了Stability存在技術(shù)問(wèn)題或管理不善的謠言。
事實(shí)上,???Stability這幾個(gè)月在人事方面的確十分混亂??,其創(chuàng)始人兼CEO Emad Mostaque于三月份辭職,隨后是一系列裁員。
三位Stable Diffusion的靈魂人物——Robin Rombach、Andreas Blattmann 和 Dominik Lorenz也——離開(kāi)了公司。
此外,Stability甚至還面臨著資金方面的困難。2023 年以來(lái),公司財(cái)務(wù)狀況不佳的消息一直在流傳。
對(duì)于一些Stable Diffusion的粉絲來(lái)說(shuō),SD 3 Medium的失敗是公司管理不善的外在結(jié)果——也是事態(tài)惡化的明顯跡象。盡管公司尚未申請(qǐng)破產(chǎn),但在看到新模型后,一些用戶(hù)開(kāi)始寫(xiě)下關(guān)于破產(chǎn)的黑色幽默段子:
「我猜現(xiàn)在他們能以一種安全且道德的方式破產(chǎn)了?!?/p>
本文轉(zhuǎn)自 新智元 ,作者:新智元
