自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

發(fā)布于 2025-3-27 07:13
瀏覽
0收藏


TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商-AI.x社區(qū)圖片

圖1:(A) 我們的分支合并蒸餾方法的簡化圖解。(1) 在分支階段,初始模型(骨干網(wǎng)絡(luò))的每個(gè)副本都在不同領(lǐng)域的知識(shí)上進(jìn)行訓(xùn)練;(2) 在合并階段,模型基于Arcee Fusion規(guī)則進(jìn)行合并。(B) 不同LLM模型的性能比較(Mustar, 2025)。TinyR1-32B-Preview在科學(xué)、數(shù)學(xué)和編程領(lǐng)域的表現(xiàn)優(yōu)于同等規(guī)模的蒸餾模型,并達(dá)到了與Deepseek R1相當(dāng)?shù)慕Y(jié)果。這里的LiveCodeBench指的是完整LiveCodeBench的24.08-25.02子集。

你是否好奇:為什么大語言模型一定要那么"大"?能不能讓它們變得更"小"卻依然聰明?今天,我為大家?guī)硪豁?xiàng)突破性的研究成果——TinyR1-32B-Preview模型,它通過創(chuàng)新的"分支合并蒸餾"(Branch-Merge Distillation)技術(shù),用僅有671B參數(shù)5%的規(guī)模,實(shí)現(xiàn)了接近DeepSeek-R1旗艦?zāi)P偷耐评砟芰Α_@可能意味著,未來我們每個(gè)人都能在自己的設(shè)備上運(yùn)行強(qiáng)大的AI模型!

1、傳統(tǒng)蒸餾方法的困境:小模型為何難以保持高精度?

傳統(tǒng)的模型蒸餾技術(shù)雖然能讓大模型"瘦身",但往往陷入一個(gè)兩難困境:

(1)數(shù)據(jù)選擇難題:需要精心挑選最相關(guān)的領(lǐng)域數(shù)據(jù)并調(diào)整它們的比例進(jìn)行聯(lián)合訓(xùn)練,這個(gè)過程耗時(shí)且容易出錯(cuò)

(2)梯度沖突問題:同時(shí)優(yōu)化多個(gè)領(lǐng)域會(huì)導(dǎo)致任務(wù)之間相互干擾,阻礙整體學(xué)習(xí)進(jìn)度

(3)性能天花板:傳統(tǒng)方法蒸餾出的小模型難以達(dá)到專業(yè)任務(wù)所需的性能水平

這些問題嚴(yán)重制約了傳統(tǒng)數(shù)據(jù)混合蒸餾的效果,導(dǎo)致小模型無法實(shí)現(xiàn)理想的性能水平。

2、分支合并蒸餾:創(chuàng)新性的兩階段知識(shí)傳遞

為解決上述問題,研究團(tuán)隊(duì)提出了全新的分支合并蒸餾方法,它包含兩個(gè)關(guān)鍵階段:    

(1)分支階段(Branch Phase): 將知識(shí)從統(tǒng)一的大型教師模型(如DeepSeek-R1 671B)選擇性地蒸餾到幾個(gè)專門的學(xué)生模型中。具體來說,團(tuán)隊(duì)構(gòu)建了三個(gè)專業(yè)數(shù)據(jù)集:

1)數(shù)學(xué)領(lǐng)域:從NuminaMath1.5篩選出58K個(gè)樣本,并配合OpenR1的解決方案

2)編程領(lǐng)域:從OpenThoughts數(shù)據(jù)集過濾形成20K個(gè)編碼解決方案軌跡

3)科學(xué)領(lǐng)域:利用DeepSeek-R1生成8.6K個(gè)科學(xué)問題的思維鏈軌跡

然后,他們基于DeepSeek-R1-Distill-Qwen-32B模型,對(duì)這三個(gè)領(lǐng)域分別進(jìn)行監(jiān)督微調(diào)(SFT),得到了三個(gè)專業(yè)領(lǐng)域的專家模型。

(2)合并階段(Merge Phase): 通過Arcee Fusion技術(shù)將不同領(lǐng)域的專家模型合并成一個(gè)統(tǒng)一模型。這種合并不是簡單的參數(shù)平均,而是通過三個(gè)精細(xì)步驟進(jìn)行:

1)重要性評(píng)分:計(jì)算每個(gè)參數(shù)的重要性

2)動(dòng)態(tài)選擇:確定參數(shù)更新的閾值

3)選擇性整合:只集成超過閾值的重要參數(shù)

這種方法通過聚焦最顯著的變化,避免了過度更新并維持了模型穩(wěn)定性。

3、驚人的成果:小模型也能有大智慧

TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商-AI.x社區(qū)圖片

經(jīng)過嚴(yán)格評(píng)測(cè),TinyR1-32B-Preview模型取得了令人矚目的成績:

1)性能大幅提升:相比于backbone模型DeepSeek-R1-Distill-Qwen-32B,在數(shù)學(xué)領(lǐng)域提升了5.5個(gè)百分點(diǎn),編程領(lǐng)域提升了4.4個(gè)百分點(diǎn),科學(xué)領(lǐng)域提升了2.9個(gè)百分點(diǎn)    

2)超越更大模型:總體上超過了DeepSeek-R1-Distill-Llama-70B(數(shù)學(xué)+8.1,編程+4.1,科學(xué)-0.2)

3)接近旗艦?zāi)P停盒阅芙咏麯eepSeek-R1旗艦?zāi)P停〝?shù)學(xué)-1.7,編程-4.3,科學(xué)-6.5)

4)推理成本可控:生成的輸出token數(shù)量僅比R1略多(數(shù)學(xué)+23%,編程+19%,科學(xué)+62%)

5)參數(shù)量大幅減少:模型參數(shù)量更小,更適合用戶和小團(tuán)隊(duì)在本地部署


TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商-AI.x社區(qū)圖片

4、高效與簡便:90%時(shí)間成本節(jié)省


TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商-AI.x社區(qū)圖片

分支合并蒸餾方法不僅提高了模型精度,還顯著降低了時(shí)間和計(jì)算成本:

1)合并階段成本大降:與傳統(tǒng)方法相比,合并階段節(jié)省了90%的時(shí)間(4個(gè)H800 GPU僅需0.5小時(shí) vs. 32個(gè)H800 GPU需要23小時(shí))

2)總復(fù)制成本可控:TinyR1-32B-Preview的理想復(fù)制成本為744個(gè)H800 GPU小時(shí),約1500美元(不包括消融實(shí)驗(yàn)和參數(shù)搜索)

3)"免費(fèi)午餐":模型合并既降低了計(jì)算開銷,又通過避免混合數(shù)據(jù)重新SFT帶來的延遲,顯著加速了模型發(fā)布過程

更重要的是,研究團(tuán)隊(duì)承諾將開源他們的模型、所有數(shù)據(jù)、訓(xùn)練代碼、評(píng)估代碼和日志,使任何人都能重現(xiàn)他們的結(jié)果。    

5、未來展望:更多可能性正在展開

這項(xiàng)研究成果打開了大模型瘦身的新思路,團(tuán)隊(duì)也提出了幾個(gè)有前景的未來發(fā)展方向:

1)探索替代骨干模型:例如,使用Qwen-Instruct模型作為骨干進(jìn)行SFT

2)發(fā)布各種規(guī)模的模型:擴(kuò)展模型陣容以滿足不同需求

3)深入研究實(shí)驗(yàn)細(xì)節(jié)影響:進(jìn)一步分析各種實(shí)驗(yàn)設(shè)置如何影響最終性能

思考與啟示:分支合并蒸餾技術(shù)的出現(xiàn),讓我們看到了大模型瘦身的新可能。它不僅解決了傳統(tǒng)蒸餾方法的局限,更為AI的普及與個(gè)性化部署鋪平了道路。未來,更小、更高效、更智能的AI模型將走進(jìn)每個(gè)人的生活,改變我們與技術(shù)交互的方式。你是否已經(jīng)準(zhǔn)備好,迎接這個(gè)人人都能擁有強(qiáng)大AI的時(shí)代?

論文標(biāo)題:TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation 

論文鏈接:???https://arxiv.org/abs/2503.04872??    

本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦