Aria: 第一個(gè)多模態(tài)MoE | Pixtral 12B | AI教學(xué)新突破:DataEnvGym讓模型自我進(jìn)化
大模型領(lǐng)域的發(fā)展日新月異,每天都有許多有趣的論文值得深入品讀。下面是本期覺得比較有意思的論文:
- Aria: 第一個(gè)多模態(tài)(文本/代碼/圖像/視頻)MoE
- Pixtral 12B:開源多模態(tài)AI的新標(biāo)桿
- AI教學(xué)新突破:DataEnvGym讓模型自我進(jìn)化
1、Aria: 第一個(gè)多模態(tài)(文本/代碼/圖像/視頻)MoE
論文標(biāo)題:Aria: An Open Multimodal Native Mixture-of-Experts Model
論文鏈接:https://arxiv.org/abs/2410.05993
在人工智能領(lǐng)域,一個(gè)重大突破悄然發(fā)生。名為ARIA的開源模型橫空出世,成為首個(gè)真正意義上的"多模態(tài)原生"混合專家模型(MoE)。這個(gè)突破性的模型不僅能夠同時(shí)處理文本、代碼、圖像和視頻等多種輸入,更令人驚嘆的是,它在各個(gè)領(lǐng)域的表現(xiàn)都能匹敵甚至超越同等規(guī)模的專門模型。
ARIA的核心在于其創(chuàng)新的架構(gòu)設(shè)計(jì)和訓(xùn)練方法。它采用了細(xì)粒度的混合專家解碼器,每個(gè)文本標(biāo)記激活3.5B參數(shù),總參數(shù)量達(dá)到24.9B。同時(shí),它還配備了一個(gè)輕量級(jí)的視覺編碼器,能夠處理不同長度、大小和縱橫比的視覺輸入。這種設(shè)計(jì)不僅提高了訓(xùn)練和推理速度,還實(shí)現(xiàn)了更高效的參數(shù)利用。
在訓(xùn)練方面,ARIA團(tuán)隊(duì)開發(fā)了一套嚴(yán)格的數(shù)據(jù)篩選程序,從多樣化的來源中精選高質(zhì)量數(shù)據(jù)。模型經(jīng)歷了語言預(yù)訓(xùn)練、多模態(tài)預(yù)訓(xùn)練、長上下文預(yù)訓(xùn)練和多模態(tài)后訓(xùn)練四個(gè)階段,每個(gè)階段都旨在逐步增強(qiáng)模型的特定能力,同時(shí)保持先前獲得的能力。這種精心設(shè)計(jì)的訓(xùn)練流程充分利用了數(shù)據(jù)和計(jì)算資源,最大化了模型性能。
結(jié)果令人振奮:ARIA在多模態(tài)、語言和編碼任務(wù)的廣泛范圍內(nèi)都展現(xiàn)出了卓越的性能,超越了Pixtral-12B和Llama3.2-11B等開源模型。更令人驚訝的是,它在多項(xiàng)多模態(tài)任務(wù)中甚至能與GPT-4和Gemini-1.5等專有模型比肩。ARIA的出現(xiàn)不僅為開源AI社區(qū)帶來了新的機(jī)遇,更為多模態(tài)AI的發(fā)展開辟了新的道路。隨著ARIA以Apache 2.0許可證發(fā)布,我們或許正在見證AI技術(shù)民主化的新篇章。
2、Pixtral 12B:開源多模態(tài)AI的新標(biāo)桿
論文鏈接:https://arxiv.org/abs/2410.07073
在人工智能領(lǐng)域,多模態(tài)模型的發(fā)展一直備受關(guān)注。近日,一款名為Pixtral 12B的開源多模態(tài)語言模型橫空出世,為圖像理解和文本處理帶來了新的可能性。這個(gè)模型不僅能夠處理文本,還能理解圖像,并支持多輪對(duì)話和多圖像交互,展現(xiàn)出了驚人的靈活性和強(qiáng)大的性能。
Pixtral 12B的一大亮點(diǎn)在于其創(chuàng)新的視覺編碼器。通過采用新穎的ROPE-2D實(shí)現(xiàn),該模型能夠以原始分辨率和縱橫比處理圖像。這意味著它可以在低延遲場(chǎng)景下快速處理低分辨率圖像,同時(shí)在需要精細(xì)推理時(shí)處理高分辨率圖像,大大提高了模型的適應(yīng)性和實(shí)用性。
在性能評(píng)估中,Pixtral 12B表現(xiàn)出色。它在多模態(tài)推理能力上超越了同等規(guī)模的模型,如Qwen2-VL 7B和Llama-3.2 11B,同時(shí)在純文本任務(wù)上也不落下風(fēng)。更令人驚訝的是,它甚至在某些多模態(tài)基準(zhǔn)測(cè)試中超越了規(guī)模更大的模型,如Llama-3.2 90B,以及閉源模型如Claude-3 Haiku和Gemini-1.5 Flash 8B。
Pixtral 12B的成功不僅僅體現(xiàn)在其性能上,更重要的是它為開源AI社區(qū)帶來了新的機(jī)遇。作為一個(gè)以Apache 2.0許可證發(fā)布的開源模型,它為研究者和開發(fā)者提供了一個(gè)強(qiáng)大的工具,有望推動(dòng)多模態(tài)AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用。隨著Pixtral 12B的出現(xiàn),我們或許正在見證開源多模態(tài)AI的新紀(jì)元的開啟。
3、AI教學(xué)新突破:DataEnvGym讓模型自我進(jìn)化
論文標(biāo)題:DataEnvGym: Data Generation Agents in Teacher Environments with Student Feedback
論文鏈接:https://dataenvgym.github.io/static/DataEnvGym.pdf
項(xiàng)目主頁:https://dataenvgym.github.io/
人工智能的發(fā)展日新月異,但如何讓AI模型不斷完善自身一直是研究者們面臨的挑戰(zhàn)。近日,一項(xiàng)名為DataEnvGym的創(chuàng)新研究為這個(gè)問題提供了全新的解決方案。這項(xiàng)研究提出了一個(gè)獨(dú)特的"教學(xué)環(huán)境",讓AI扮演"老師"和"學(xué)生"的角色,通過不斷生成針對(duì)性的訓(xùn)練數(shù)據(jù)來提升模型性能。
DataEnvGym的核心思想是創(chuàng)造一個(gè)模擬教學(xué)場(chǎng)景的環(huán)境。在這個(gè)環(huán)境中,"教師"AI根據(jù)"學(xué)生"模型的弱點(diǎn),自動(dòng)生成定制化的訓(xùn)練數(shù)據(jù)。通過多輪迭代,"學(xué)生"模型不斷接受新數(shù)據(jù)的訓(xùn)練,而"教師"AI則根據(jù)學(xué)生的進(jìn)步情況調(diào)整教學(xué)策略。這種方法不僅大大減少了人工干預(yù)的需求,還能更精準(zhǔn)地針對(duì)模型的薄弱環(huán)節(jié)進(jìn)行改進(jìn)。
研究團(tuán)隊(duì)設(shè)計(jì)了三種不同類型的教學(xué)環(huán)境,分別是開放式、技能列表式和技能樹式。這些環(huán)境為AI教師提供了從靈活到結(jié)構(gòu)化的不同選擇,使其能夠適應(yīng)各種學(xué)習(xí)任務(wù)。實(shí)驗(yàn)結(jié)果令人振奮:在視覺問答、數(shù)學(xué)和代碼生成等多個(gè)領(lǐng)域,經(jīng)過DataEnvGym訓(xùn)練的模型均取得了顯著進(jìn)步,平均準(zhǔn)確率提升了1.80%到4.82%。
DataEnvGym的出現(xiàn)無疑為AI領(lǐng)域帶來了新的可能性。它不僅為開發(fā)更智能、更高效的AI模型提供了新思路,也為人工智能的自主學(xué)習(xí)和持續(xù)進(jìn)化鋪平了道路。隨著這項(xiàng)技術(shù)的進(jìn)一步發(fā)展,我們或許能夠見證AI真正實(shí)現(xiàn)自我完善,朝著更高級(jí)的智能形態(tài)邁進(jìn)。
本文轉(zhuǎn)載自 ??AI帝國??,作者: 無影寺
