Llama 4萬(wàn)億巨獸延期,80%核心元老集體辭職?
Llama 4團(tuán)隊(duì)約80%的人集體辭職?
昨天,來(lái)自AI明星初創(chuàng)Prime Intellect的機(jī)器學(xué)習(xí)研究員一則驚天爆料,徹底點(diǎn)燃了AI圈。
就連WSJ幾天前的獨(dú)家報(bào)道,也被人們翻了出來(lái)。
文章稱,Meta旗艦AI模型「Behemoth」一再推遲發(fā)布,內(nèi)部對(duì)公司數(shù)十億美元AI戰(zhàn)略的質(zhì)疑達(dá)到頂峰。
而且,文中還給出了更多人員流失的細(xì)節(jié):
Llama 1初始團(tuán)隊(duì)中,原來(lái)14人中已有11人從Meta離職。
對(duì)此,Meta高管Dave Arnold立即辟謠,80%員工逃離的消息不準(zhǔn)確。他還特別強(qiáng)調(diào),這些離職的僅是發(fā)表Llama 1團(tuán)隊(duì)的人,并非后續(xù)的團(tuán)隊(duì)。
與此同時(shí),OpenAI昨日上線了超強(qiáng)編碼智能體Codex。下周,谷歌I/O大會(huì)上還將發(fā)布Veo、Flow等一系列爆款。
這場(chǎng)風(fēng)波,讓行業(yè)不禁發(fā)出靈魂拷問(wèn):Meta在這場(chǎng)AI競(jìng)賽中,是否已陷入瓶頸?
2萬(wàn)億巨獸「滑鐵盧」
按照原計(jì)劃,Meta會(huì)在4月首屆AI開(kāi)發(fā)者大會(huì)上,正式上線2萬(wàn)億參數(shù)Behemoth。
當(dāng)時(shí),知情人士表示,由于模型性能未達(dá)預(yù)期,發(fā)布時(shí)間被推遲至6月。
如今,將會(huì)延至到今年秋季,甚至更晚。
Llama 4發(fā)布當(dāng)天,Meta曾首次介紹了這款模型,仍在訓(xùn)練中。
它是Maverick協(xié)同蒸餾的教師模型,使用30T多模態(tài)token在32K個(gè)GPU上進(jìn)行預(yù)訓(xùn)練(FP8)。
Behemoth是Meta大模型與OpenAI、谷歌、Anthropic等抗衡的重要武器。
然而,工程師們?cè)谔嵘湫阅芊矫嬗龅嚼щy,內(nèi)部甚至質(zhì)疑其改進(jìn)是否足以支撐公開(kāi)發(fā)布。
甚至,Behemoth的開(kāi)發(fā)困境讓高管們,對(duì)Llama 4開(kāi)發(fā)團(tuán)隊(duì)的表現(xiàn)感到失望。
在內(nèi)部,他們正考慮對(duì)AI產(chǎn)品團(tuán)隊(duì)進(jìn)行重大優(yōu)化調(diào)整。
Meta慌了,招募AI大佬帶隊(duì)Llama 5?
Meta的AI之路并非一帆風(fēng)順。
其首款Llama模型,曾由AI研究團(tuán)隊(duì)(FAIR)開(kāi)發(fā)。該團(tuán)隊(duì)以學(xué)術(shù)研究為主,成員大多是博士。
2023年初,Llama 1及相關(guān)論文發(fā)布后,在業(yè)界贏得了廣泛的好評(píng)。
論文地址:https://arxiv.org/pdf/2302.13971
然而,自那以后,原始論文的14名研究者中有11人已離開(kāi)公司,新一代Llama模型由另一團(tuán)隊(duì)接手。
今年,Meta還計(jì)劃投資高達(dá)720億美元,大部分用于AI的研發(fā)、基礎(chǔ)設(shè)施投入。
然而,上個(gè)月,Llama 4模型的上線,卻讓人們大失所望。因其在LMArena上,用了非公開(kāi)版模型去刷榜,模型排名沖到TOP 3。
一時(shí)間,全網(wǎng)質(zhì)疑Meta造假聲愈演愈烈。最后,LMSYS決定重新評(píng)估,結(jié)果Llama 4真實(shí)排名跌倒了30開(kāi)外。
在所有對(duì)手快速迭代的強(qiáng)壓之下,Meta實(shí)屬慌了。
Hyperbolic聯(lián)創(chuàng)兼CTO Yuchen Jin稱,自己收到了Meta招募信息——帶領(lǐng)Llama 5團(tuán)隊(duì)。
另一張來(lái)自@kalomaze截圖顯示,Meta發(fā)出多個(gè)英雄帖,在美國(guó)不同地區(qū)大量招募軟件工程師。
幾天前,Yuchen Jin用Meta AI測(cè)試Llama 4后,體驗(yàn)感極差。
截圖后讓模型去理解圖片內(nèi)容,但Meta AI拒絕了回復(fù)。當(dāng)他去登錄賬號(hào)時(shí),也失敗了。
他直言道,「這不僅僅是Llama 4的問(wèn)題,而是Meta的技術(shù)問(wèn)題」。
Scaling Law又一次撞墻?
Meta當(dāng)下的困境并非個(gè)例。
當(dāng)前,其他頂級(jí)AI公司同樣在下一代模型的開(kāi)發(fā)中遇到了瓶頸。
先拿OpenAI來(lái)說(shuō)吧,他們?cè)?jì)劃于2024年中發(fā)布GPT-5,至今仍未推出,最新版本僅為GPT-4.5。
不過(guò),在昨天AMA Reddit在線問(wèn)中,OpenAI副總裁透露,多個(gè)產(chǎn)品整合到GPT-5中。而且,據(jù)稱,GPT-5將完全基于尚未發(fā)布的模型構(gòu)建。
另外,Anthropic Claude 3.5 Opus模型自去年宣布以來(lái),至今未發(fā)布,對(duì)外僅表示「即將推出」。
紐約大學(xué)數(shù)據(jù)科學(xué)中心助理教授Ravid Shwartz-Ziv指出,「目前,所有實(shí)驗(yàn)室和模型的進(jìn)步都相當(dāng)有限」。
這一現(xiàn)象表明,AI模型的未來(lái)發(fā)展可能比過(guò)去慢得多,且成本高昂。
盡管Behemoth的發(fā)布一再推遲,Meta仍有可能選擇提前推出一個(gè)功能有限的版本,以緩解外部壓力。