Meta發(fā)布Llama 3.2:AI大模型再升級(jí),從云端到掌上
看到 Meta 的發(fā)布會(huì),感覺(jué)智能又近了一步,從視覺(jué)語(yǔ)言模型的革新到輕量級(jí)模型在邊緣設(shè)備上的應(yīng)用,Meta正在將AI的觸角延伸到我們生活的每個(gè)角落。想象一下,在不久的將來(lái),我們的手機(jī)可能會(huì)成為一個(gè)真正智能的個(gè)人助理,能夠理解我們的視覺(jué)世界,回答復(fù)雜的問(wèn)題,甚至幫助我們做出更明智的決策。
同時(shí),Meta堅(jiān)持開(kāi)源的策略正在激發(fā)全球開(kāi)發(fā)者的創(chuàng)造力。這種開(kāi)放創(chuàng)新的模式可能會(huì)加速AI技術(shù)的發(fā)展,帶來(lái)我們現(xiàn)在還無(wú)法想象的應(yīng)用和突破。
然而,隨著AI變得越來(lái)越強(qiáng)大,我們也面臨著諸多挑戰(zhàn)。如何確保AI的發(fā)展方向符合人類的利益?如何在推動(dòng)創(chuàng)新的同時(shí)保護(hù)隱私和安全?這些問(wèn)題都需要我們深思。Meta在這次發(fā)布會(huì)中強(qiáng)調(diào)的安全性和負(fù)責(zé)任創(chuàng)新,正是朝著解決這些問(wèn)題邁出的重要一步。
Llama 3.2的發(fā)布讓我們看到了AI的無(wú)限可能,下面是發(fā)布會(huì)的重點(diǎn)內(nèi)容。
要點(diǎn):
- 今天,我們發(fā)布了Llama 3.2,其中包括小型和中型視覺(jué)LLM(11B和90B),以及適用于邊緣和移動(dòng)設(shè)備的輕量級(jí)純文本模型(1B和3B),包括預(yù)訓(xùn)練和指令微調(diào)版本。
- Llama 3.2的1B和3B模型支持128K令牌的上下文長(zhǎng)度,在同類模型中處于最先進(jìn)水平,適用于邊緣設(shè)備上的本地摘要、遵循指令和重寫(xiě)任務(wù)等用例。這些模型從第一天起就支持高通和聯(lián)發(fā)科硬件,并針對(duì)Arm處理器進(jìn)行了優(yōu)化。
- 在廣泛生態(tài)系統(tǒng)的支持下,Llama 3.2的11B和90B視覺(jué)模型可以直接替代相應(yīng)的文本模型,同時(shí)在圖像理解任務(wù)上超越了Claude 3 Haiku等閉源模型。與其他開(kāi)放的多模態(tài)模型不同,預(yù)訓(xùn)練和對(duì)齊模型都可以使用torchtune進(jìn)行自定義應(yīng)用的微調(diào),并使用torchchat在本地部署。用戶還可以通過(guò)我們的智能助手Meta AI試用這些模型。
- 我們正在分享首個(gè)官方Llama Stack發(fā)行版,這將大大簡(jiǎn)化開(kāi)發(fā)者在不同環(huán)境(包括單節(jié)點(diǎn)、本地、云和設(shè)備)中使用Llama模型的方式,實(shí)現(xiàn)具有集成安全性的檢索增強(qiáng)生成(RAG)和工具支持應(yīng)用的一鍵部署。
- 我們一直與AWS、Databricks、戴爾科技、Fireworks、Infosys和Together AI等合作伙伴密切合作,為他們的下游企業(yè)客戶構(gòu)建Llama Stack發(fā)行版。設(shè)備上的分發(fā)通過(guò)PyTorch ExecuTorch實(shí)現(xiàn),單節(jié)點(diǎn)分發(fā)通過(guò)Ollama實(shí)現(xiàn)。
- 我們繼續(xù)分享我們的工作,因?yàn)槲覀兿嘈砰_(kāi)放能推動(dòng)創(chuàng)新,對(duì)開(kāi)發(fā)者、Meta和世界都有好處。Llama已經(jīng)在開(kāi)放性、可修改性和成本效益方面領(lǐng)先,使更多人能夠使用生成式AI實(shí)現(xiàn)創(chuàng)造性、有用和改變生活的突破。
- 我們正在llama.com和Hugging Face上提供Llama 3.2模型下載,同時(shí)在我們廣泛的合作伙伴平臺(tái)(包括AMD、AWS、Databricks、戴爾、谷歌云、Groq、IBM、英特爾、微軟Azure、NVIDIA、甲骨文云、Snowflake等)上提供即時(shí)開(kāi)發(fā)。
自從我們兩個(gè)月前宣布Llama 3.1系列模型以來(lái),我們對(duì)它們所產(chǎn)生的影響感到興奮,其中包括405B——首個(gè)開(kāi)放的前沿級(jí)AI模型。雖然這些模型非常強(qiáng)大,但我們認(rèn)識(shí)到,使用它們進(jìn)行構(gòu)建需要大量的計(jì)算資源和專業(yè)知識(shí)。我們也聽(tīng)到一些沒(méi)有這些資源的開(kāi)發(fā)者表示,他們?nèi)匀幌M袡C(jī)會(huì)使用Llama進(jìn)行構(gòu)建。正如Meta創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格今天在Connect大會(huì)上分享的那樣,他們不必再等待了。今天,我們發(fā)布了Llama 3.2,其中包括小型和中型視覺(jué)LLM(11B和90B)以及適用于特定邊緣和移動(dòng)設(shè)備的輕量級(jí)純文本模型(1B和3B)。
距離我們首次宣布Llama才一年半的時(shí)間,我們?cè)谌绱硕痰臅r(shí)間內(nèi)取得了令人難以置信的進(jìn)展。今年,Llama實(shí)現(xiàn)了10倍的增長(zhǎng),成為負(fù)責(zé)任創(chuàng)新的標(biāo)準(zhǔn)。Llama還繼續(xù)在開(kāi)放性、可修改性和成本效益方面保持領(lǐng)先,并且與閉源模型具有競(jìng)爭(zhēng)力——在某些領(lǐng)域甚至處于領(lǐng)先地位。我們相信,開(kāi)放推動(dòng)創(chuàng)新,是正確的前進(jìn)道路,這就是為什么我們繼續(xù)分享我們的研究并與合作伙伴和開(kāi)發(fā)者社區(qū)合作。
我們正在llama.com和Hugging Face上提供Llama 3.2模型下載,同時(shí)在我們廣泛的合作伙伴平臺(tái)上提供即時(shí)開(kāi)發(fā)。合作伙伴是這項(xiàng)工作的重要組成部分,我們已經(jīng)與包括AMD、AWS、Databricks、戴爾、谷歌云、Groq、IBM、英特爾、微軟Azure、NVIDIA、甲骨文云和Snowflake在內(nèi)的25多家公司合作,以在第一天就實(shí)現(xiàn)服務(wù)。對(duì)于Llama 3.2版本,我們還與設(shè)備合作伙伴Arm、聯(lián)發(fā)科和高通合作,在發(fā)布時(shí)提供廣泛的服務(wù)。從今天開(kāi)始,我們還向社區(qū)提供Llama Stack。有關(guān)最新版本的更多詳細(xì)信息,包括歐洲多模態(tài)可用性的信息,可以在我們的可接受使用政策中找到。
認(rèn)識(shí)Llama 3.2
Llama 3.2系列中最大的兩個(gè)模型,11B和90B,支持圖像推理用例,如包括圖表和圖形在內(nèi)的文檔級(jí)理解、圖像說(shuō)明和基于自然語(yǔ)言描述在圖像中定向定位對(duì)象等視覺(jué)定位任務(wù)。例如,一個(gè)人可以詢問(wèn)他們的小企業(yè)在去年哪個(gè)月銷售業(yè)績(jī)最好,Llama 3.2可以根據(jù)可用的圖表進(jìn)行推理,并快速提供答案。在另一個(gè)例子中,模型可以利用地圖進(jìn)行推理,幫助回答諸如何時(shí)徒步旅行可能變得更陡峭或地圖上標(biāo)記的特定小徑的距離等問(wèn)題。11B和90B模型還可以通過(guò)從圖像中提取細(xì)節(jié)、理解場(chǎng)景,然后創(chuàng)作一兩句話來(lái)作為圖像說(shuō)明,幫助講述故事,從而彌合視覺(jué)和語(yǔ)言之間的差距。
輕量級(jí)的1B和3B模型在多語(yǔ)言文本生成和工具調(diào)用能力方面表現(xiàn)出色。這些模型使開(kāi)發(fā)者能夠構(gòu)建個(gè)性化的、具有強(qiáng)大隱私保護(hù)的設(shè)備上代理應(yīng)用程序,數(shù)據(jù)永遠(yuǎn)不會(huì)離開(kāi)設(shè)備。例如,這樣的應(yīng)用程序可以幫助總結(jié)最近收到的10條消息,提取行動(dòng)項(xiàng)目,并利用工具調(diào)用直接發(fā)送后續(xù)會(huì)議的日歷邀請(qǐng)。
在本地運(yùn)行這些模型有兩個(gè)主要優(yōu)勢(shì)。首先,由于處理在本地完成,提示和響應(yīng)可以感覺(jué)瞬間完成。其次,本地運(yùn)行模型可以通過(guò)不將消息和日歷信息等數(shù)據(jù)發(fā)送到云端來(lái)保持隱私,使整個(gè)應(yīng)用程序更加私密。由于處理是在本地進(jìn)行的,應(yīng)用程序可以清楚地控制哪些查詢保留在設(shè)備上,哪些可能需要由云端的更大模型處理。
模型評(píng)估
我們的評(píng)估表明,Llama 3.2視覺(jué)模型在圖像識(shí)別和一系列視覺(jué)理解任務(wù)上與領(lǐng)先的基礎(chǔ)模型Claude 3 Haiku和GPT4o-mini具有競(jìng)爭(zhēng)力。3B模型在遵循指令、總結(jié)、提示重寫(xiě)和工具使用等任務(wù)上優(yōu)于Gemma 2 2.6B和Phi 3.5-mini模型,而1B模型與Gemma不相上下。
我們?cè)?50多個(gè)涵蓋廣泛語(yǔ)言的基準(zhǔn)數(shù)據(jù)集上評(píng)估了性能。對(duì)于視覺(jué)LLM,我們?cè)u(píng)估了圖像理解和視覺(jué)推理基準(zhǔn)的性能。
視覺(jué)模型
作為首批支持視覺(jué)任務(wù)的Llama模型,11B和90B模型需要一個(gè)全新的模型架構(gòu)來(lái)支持圖像推理。
為了添加圖像輸入支持,我們訓(xùn)練了一組適配器權(quán)重,將預(yù)訓(xùn)練的圖像編碼器集成到預(yù)訓(xùn)練的語(yǔ)言模型中。適配器由一系列交叉注意力層組成,將圖像編碼器表示輸入到語(yǔ)言模型中。我們?cè)谖谋?圖像對(duì)上訓(xùn)練適配器,以使圖像表示與語(yǔ)言表示對(duì)齊。在適配器訓(xùn)練過(guò)程中,我們還更新了圖像編碼器的參數(shù),但有意不更新語(yǔ)言模型參數(shù)。通過(guò)這樣做,我們保持了所有純文本功能不變,為開(kāi)發(fā)者提供了Llama 3.1模型的直接替代品。
我們的訓(xùn)練流程包括多個(gè)階段,從預(yù)訓(xùn)練的Llama 3.1文本模型開(kāi)始。首先,我們添加圖像適配器和編碼器,然后在大規(guī)模噪聲(圖像,文本)對(duì)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。接下來(lái),我們?cè)谥械纫?guī)模的高質(zhì)量領(lǐng)域內(nèi)和知識(shí)增強(qiáng)(圖像,文本)對(duì)數(shù)據(jù)上進(jìn)行訓(xùn)練。
在后訓(xùn)練中,我們使用與文本模型類似的方法,通過(guò)監(jiān)督微調(diào)、拒絕采樣和直接偏好優(yōu)化進(jìn)行多輪對(duì)齊。我們利用合成數(shù)據(jù)生成,使用Llama 3.1模型在領(lǐng)域內(nèi)圖像之上過(guò)濾和增強(qiáng)問(wèn)題和答案,并使用獎(jiǎng)勵(lì)模型對(duì)所有候選答案進(jìn)行排序,以提供高質(zhì)量的微調(diào)數(shù)據(jù)。我們還添加了安全緩解數(shù)據(jù),以生成具有高度安全性的模型,同時(shí)保持模型的有用性。
最終結(jié)果是一組可以接收?qǐng)D像和文本提示,并對(duì)組合進(jìn)行深入理解和推理的模型。這是朝著Llama模型擁有更豐富代理能力的又一步。
輕量級(jí)模型
正如我們?cè)谟懻揕lama 3.1時(shí)提到的,強(qiáng)大的教師模型可以用來(lái)創(chuàng)建性能更好的小型模型。我們?cè)?B和3B模型上使用了兩種方法——剪枝和蒸餾,使它們成為第一批可以高效適配設(shè)備的高能力輕量級(jí)Llama模型。
剪枝使我們能夠減小Llama系列中現(xiàn)有模型的大小,同時(shí)盡可能多地恢復(fù)知識(shí)和性能。對(duì)于1B和3B模型,我們采用了從Llama 3.1 8B模型單次結(jié)構(gòu)化剪枝的方法。這涉及系統(tǒng)地移除網(wǎng)絡(luò)的部分內(nèi)容,并調(diào)整權(quán)重和梯度的大小,以創(chuàng)建一個(gè)更小、更高效的模型,同時(shí)保留原始網(wǎng)絡(luò)的性能。
知識(shí)蒸餾使用更大的網(wǎng)絡(luò)向更小的網(wǎng)絡(luò)傳授知識(shí),其思想是較小的模型可以通過(guò)使用教師獲得比從頭開(kāi)始更好的性能。對(duì)于Llama 3.2中的1B和3B模型,我們將Llama 3.1 8B和70B模型的logits納入模型開(kāi)發(fā)的預(yù)訓(xùn)練階段,其中這些較大模型的輸出(logits)被用作標(biāo)記級(jí)目標(biāo)。知識(shí)蒸餾在剪枝之后使用,以恢復(fù)性能。
在后訓(xùn)練中,我們使用與Llama 3.1類似的方法,通過(guò)對(duì)預(yù)訓(xùn)練模型進(jìn)行多輪對(duì)齊來(lái)生成最終的聊天模型。每一輪都涉及監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO)。
在后訓(xùn)練中,我們將上下文長(zhǎng)度支持?jǐn)U展到128K令牌,同時(shí)保持與預(yù)訓(xùn)練模型相同的質(zhì)量。我們還進(jìn)行合成數(shù)據(jù)生成,通過(guò)仔細(xì)的數(shù)據(jù)處理和過(guò)濾來(lái)確保高質(zhì)量。我們精心混合數(shù)據(jù),以優(yōu)化多種能力的高質(zhì)量表現(xiàn),如總結(jié)、重寫(xiě)、遵循指令、語(yǔ)言推理和工具使用。
為了使社區(qū)能夠在這些模型上進(jìn)行創(chuàng)新,我們與全球前兩大移動(dòng)系統(tǒng)芯片(SoC)公司高通和聯(lián)發(fā)科,以及為99%的移動(dòng)設(shè)備提供基礎(chǔ)計(jì)算平臺(tái)的Arm密切合作。今天發(fā)布的權(quán)重基于BFloat16數(shù)值。我們的團(tuán)隊(duì)正在積極探索將運(yùn)行得更快的量化變體,我們希望很快能分享更多相關(guān)信息。
Llama Stack發(fā)行版
7月,我們發(fā)布了Llama Stack API的意見(jiàn)征求,這是一個(gè)標(biāo)準(zhǔn)化接口,用于規(guī)范工具鏈組件(微調(diào)、合成數(shù)據(jù)生成)以定制Llama模型并構(gòu)建代理應(yīng)用程序。參與度一直很高。
從那時(shí)起,我們一直在努力使API成為現(xiàn)實(shí)。我們?yōu)橥评?、工具使用和RAG構(gòu)建了API的參考實(shí)現(xiàn)。此外,我們一直在與合作伙伴合作,使他們適應(yīng)成為API的提供者。最后,我們引入了Llama Stack Distribution作為一種打包多個(gè)API提供者的方式,這些提供者能夠很好地協(xié)同工作,為開(kāi)發(fā)者提供單一端點(diǎn)。我們現(xiàn)在與社區(qū)分享一種簡(jiǎn)化且一致的體驗(yàn),這將使他們能夠在多種環(huán)境中使用Llama模型,包括本地、云端、單節(jié)點(diǎn)和設(shè)備上。
完整的發(fā)布內(nèi)容包括:
- Llama CLI(命令行界面),用于構(gòu)建、配置和運(yùn)行Llama Stack發(fā)行版
- 多種語(yǔ)言的客戶端代碼,包括python、node、kotlin和swift
- Llama Stack Distribution Server和Agents API Provider的Docker容器
- 多個(gè)發(fā)行版
通過(guò)Meta內(nèi)部實(shí)現(xiàn)和Ollama的單節(jié)點(diǎn)Llama Stack Distribution
通過(guò)AWS、Databricks、Fireworks和Together的云端Llama Stack發(fā)行版
通過(guò)PyTorch ExecuTorch實(shí)現(xiàn)的iOS設(shè)備上Llama Stack Distribution
戴爾支持的本地Llama Stack Distribution
我們期待與開(kāi)發(fā)者和合作伙伴合作,簡(jiǎn)化使用Llama模型構(gòu)建的所有方面,并歡迎反饋。
系統(tǒng)級(jí)安全
采取開(kāi)放方法有許多好處。它有助于確保世界各地更多的人可以獲得AI提供的機(jī)會(huì),防止權(quán)力集中在少數(shù)人手中,并在社會(huì)中更公平、更安全地部署技術(shù)。在我們繼續(xù)創(chuàng)新的同時(shí),我們還希望確保我們正在賦予開(kāi)發(fā)者構(gòu)建安全和負(fù)責(zé)任系統(tǒng)的能力。
基于我們之前的版本和持續(xù)努力支持負(fù)責(zé)任的創(chuàng)新,今天我們?yōu)槲覀兊陌踩U舷盗刑砑恿诵碌母?
- 首先,我們發(fā)布了Llama Guard 3 11B Vision,它旨在支持Llama 3.2的新圖像理解能力,并過(guò)濾文本+圖像輸入提示或?qū)@些提示的文本輸出響應(yīng)。
- 其次,隨著我們發(fā)布1B和3B Llama模型以在更受限制的環(huán)境(如設(shè)備上)使用,我們還優(yōu)化了Llama Guard以大幅降低其部署成本。Llama Guard 3 1B基于Llama 3.2 1B模型,經(jīng)過(guò)剪枝和量化,將其大小從2,858 MB減少到438 MB,使其部署比以往任何時(shí)候都更加高效。
這些新解決方案已集成到我們的參考實(shí)現(xiàn)、演示和應(yīng)用程序中,并準(zhǔn)備好供開(kāi)源社區(qū)從第一天起使用。
本文轉(zhuǎn)載自 ??芝士AI吃魚(yú)??,作者: 芝士AI吃魚(yú)
