自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Xiaomi MiMo:為“推理而生”

發(fā)布于 2025-5-9 06:13
瀏覽
0收藏

在數(shù)學(xué)推理(AIME 24-25)和 代碼競(jìng)賽(LiveCodeBench v5)公開(kāi)測(cè)評(píng)集上,MiMo 僅用 7B 的參數(shù)規(guī)模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開(kāi)源推理模型 QwQ-32B-Preview。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)



預(yù)訓(xùn)練

預(yù)訓(xùn)練階段對(duì)于MiMo-7B模型至關(guān)重要,它為模型后續(xù)展現(xiàn)強(qiáng)大的推理能力奠定了堅(jiān)實(shí)基礎(chǔ)。這一階段主要涵蓋了數(shù)據(jù)處理、模型架構(gòu)設(shè)計(jì)以及超參數(shù)設(shè)置等關(guān)鍵環(huán)節(jié),每個(gè)環(huán)節(jié)都經(jīng)過(guò)精心優(yōu)化,旨在增強(qiáng)模型的推理潛能。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)

預(yù)訓(xùn)練數(shù)據(jù)

預(yù)訓(xùn)練數(shù)據(jù)是模型學(xué)習(xí)推理模式的重要信息來(lái)源,MiMo-7B的預(yù)訓(xùn)練語(yǔ)料庫(kù)整合了網(wǎng)頁(yè)、學(xué)術(shù)論文、書(shū)籍、編程代碼以及合成數(shù)據(jù)等多種不同的來(lái)源。

優(yōu)化推理數(shù)據(jù)提?。撼S玫奈谋咎崛」ぞ咴谔幚砭W(wǎng)頁(yè)中的數(shù)學(xué)公式和代碼片段時(shí)存在不足,小米為此開(kāi)發(fā)了專(zhuān)門(mén)針對(duì)數(shù)學(xué)內(nèi)容、代碼塊和論壇網(wǎng)站的HTML提取工具,同時(shí)對(duì)PDF解析工具包進(jìn)行增強(qiáng),以更好地處理STEM和代碼內(nèi)容,成功保留了大量推理模式。

快速全局去重:為提高訓(xùn)練效率、減少過(guò)擬合,采用URL去重和MinHash去重方法對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行處理。并且,根據(jù)多維度質(zhì)量分?jǐn)?shù)調(diào)整最終數(shù)據(jù)分布,確保去重過(guò)程不會(huì)影響數(shù)據(jù)質(zhì)量。

多維數(shù)據(jù)過(guò)濾:傳統(tǒng)的啟發(fā)式規(guī)則過(guò)濾器可能會(huì)錯(cuò)誤地過(guò)濾掉包含大量數(shù)學(xué)和代碼內(nèi)容的高質(zhì)量網(wǎng)頁(yè)。因此,小米通過(guò)微調(diào)小型LLMs作為數(shù)據(jù)質(zhì)量標(biāo)記器,進(jìn)行領(lǐng)域分類(lèi)和多維質(zhì)量評(píng)估,篩選出高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)。

合成推理數(shù)據(jù):利用先進(jìn)推理模型生

成合成推理數(shù)據(jù),采用多種策略確保數(shù)據(jù)的多樣性。例如,選擇具有高推理深度的STEM內(nèi)容,促使模型進(jìn)行深入分析;收集數(shù)學(xué)和代碼問(wèn)題讓模型求解;引入通用領(lǐng)域查詢和創(chuàng)意寫(xiě)作任務(wù)等。而且,合成推理數(shù)據(jù)在訓(xùn)練時(shí)不易出現(xiàn)過(guò)擬合現(xiàn)象。

三階段數(shù)據(jù)混合:為優(yōu)化數(shù)據(jù)分布,采用三階段數(shù)據(jù)混合策略。第一階段,整合除推理任務(wù)查詢的合成響應(yīng)之外的所有數(shù)據(jù)源,對(duì)過(guò)度代表的內(nèi)容進(jìn)行下采樣,對(duì)高價(jià)值數(shù)據(jù)進(jìn)行上采樣;第二階段,將數(shù)學(xué)和代碼相關(guān)數(shù)

據(jù)比例提升至約70%,在不影響通用語(yǔ)言能力的情況下增強(qiáng)專(zhuān)業(yè)技能;第三階段,加入約10%的數(shù)學(xué)、代碼和創(chuàng)意寫(xiě)作查詢的合成響應(yīng),并將上下文長(zhǎng)度從8192擴(kuò)展到32768,從而構(gòu)建出約25萬(wàn)億token的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)集。

模型架構(gòu)

MiMo-7B 采用通用的解碼器架構(gòu),這種架構(gòu)在語(yǔ)言模型中應(yīng)用廣泛,具有良好的性能表現(xiàn)。它包含分組查詢注意力(GQA)、預(yù) RMSNorm、SwiGLU 激活函數(shù)以及旋轉(zhuǎn)位置嵌入(RoPE)等組件,與 Llama 和 Qwen 等模型類(lèi)似。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


MTP模塊:受 DeepSeek-V3 啟發(fā),引入多令牌預(yù)測(cè)(MTP)模塊作為額外訓(xùn)練目標(biāo)。預(yù)訓(xùn)練時(shí),使用單 MTP 層,因?yàn)閷?shí)驗(yàn)發(fā)現(xiàn)多層 MTP 層不會(huì)帶來(lái)進(jìn)一步提升;

推理時(shí),將預(yù)訓(xùn)練的單 MTP 層復(fù)制為兩個(gè)相同副本,凍結(jié)主模型和第一個(gè) MTP 層,微調(diào)兩個(gè)新的 MTP 層,通過(guò)推測(cè)解碼顯著加速推理。在 AIME24 基準(zhǔn)測(cè)試中,MTP 層表現(xiàn)出較高的接受率,能夠有效提升解碼速度,尤其在需要長(zhǎng)輸出的推理場(chǎng)景中優(yōu)勢(shì)明顯。

超參數(shù)

模型超參數(shù):設(shè)置了一系列關(guān)鍵的模型超參數(shù),如 Transformer 層數(shù)為 36,隱藏維度為 4096,前饋網(wǎng)絡(luò)(FFN)的中間隱藏維度為 11008,注意力頭數(shù)為 32,鍵值組為 8。這些參數(shù)的設(shè)置影響著模型的性能和推理能力。

訓(xùn)練超參數(shù):優(yōu)化器選擇 AdamW,設(shè)置 β1=0.9,β2=0.95,權(quán)重衰減為 0.1,并應(yīng)用梯度裁剪,最大范數(shù)為1.0。在不同的預(yù)訓(xùn)練階段,對(duì)最大序列長(zhǎng)度、RoPE 基數(shù)、學(xué)習(xí)率和批量大小等參數(shù)進(jìn)行調(diào)整。例如,前兩個(gè)階段最大序列長(zhǎng)度為 8192,第三階段擴(kuò)展到 32768;學(xué)習(xí)率在不同階段也按照特定的線性預(yù)熱、恒定和余弦衰減策略進(jìn)行變化;批量大小在不同階段也有相應(yīng)的調(diào)整。此外,MTP 損失權(quán)重在預(yù)訓(xùn)練過(guò)程中也會(huì)進(jìn)行調(diào)整。

預(yù)訓(xùn)練評(píng)估

評(píng)估設(shè)置:在一系列基準(zhǔn)測(cè)試中對(duì) MiMo-7B-Base 進(jìn)行評(píng)估,涵蓋自然語(yǔ)言理解與推理、科學(xué)問(wèn)答、閱讀理解、數(shù)學(xué)推理、編碼、中文理解以及長(zhǎng)上下文理解等多個(gè)方面。這些基準(zhǔn)測(cè)試能夠全面評(píng)估模型的能力。同時(shí),將MiMo-7B-Base 與其他類(lèi)似規(guī)模的開(kāi)源基礎(chǔ)模型進(jìn)行比較,保證評(píng)估設(shè)置的一致性。

推理能力上限評(píng)估:傳統(tǒng)評(píng)估方法可能會(huì)低估模型的真實(shí)推理潛力,因此采用 pass@k 指標(biāo)進(jìn)行評(píng)估。該指標(biāo)認(rèn)為,若 k次 采樣的解決方案中有任何一個(gè)正確,則視為問(wèn)題解決。結(jié)果顯示,MiMo-7B-Base 在所有基準(zhǔn)測(cè)試和評(píng)估的 k值 下,pass@k 得分均顯著高于其他對(duì)比模型,包括 320億 參數(shù)的基線模型,且隨著 k 值增加,與其他基線模型的性能差距不斷擴(kuò)大,這充分展示了其卓越的推理潛力。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


評(píng)估結(jié)果:在通用推理方面,MiMo-7B-Base 在常識(shí)和推理任務(wù)中表現(xiàn)出色,超越了類(lèi)似規(guī)模的開(kāi)源模型。例如在評(píng)估語(yǔ)言推理能力的 BBH 基準(zhǔn)測(cè)試中,得分達(dá)到 75.2,超過(guò) Qwen2.5-7B 約 5 分;在 SuperGPQA 測(cè)試中,也展現(xiàn)出解決研究生水平問(wèn)題的強(qiáng)大性能;在 DROP 閱讀理解基準(zhǔn)測(cè)試中,同樣表現(xiàn)優(yōu)異,體現(xiàn)了其先進(jìn)的語(yǔ)言理解能力。在代碼和數(shù)學(xué)推理方面,MiMo-7B-Base 在編碼和數(shù)學(xué)任務(wù)中表現(xiàn)出很強(qiáng)的熟練度。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


在LiveCodeBench v5 和 AIME 2024 測(cè)試中,得分均遠(yuǎn)超其他類(lèi)似規(guī)模的基礎(chǔ)模型,凸顯了其強(qiáng)大的問(wèn)題解決能力和在復(fù)雜推理任務(wù)中的巨大潛力。在長(zhǎng)上下文理解方面,對(duì)于長(zhǎng)上下文檢索任務(wù),MiMo-7B 在 32K 上下文窗口內(nèi)的所有位置都能實(shí)現(xiàn)近乎完美的檢索性能。在需要長(zhǎng)上下文推理的任務(wù)中,如常見(jiàn)詞提?。–WE)、頻繁詞提?。‵WE)和變量跟蹤(VT),也表現(xiàn)出色,超越了Qwen2.5-7B,驗(yàn)證了預(yù)訓(xùn)練階段融入高質(zhì)量推理模式數(shù)據(jù)策略的有效性。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


后訓(xùn)練

在完成預(yù)訓(xùn)練后,MiMo-7B 進(jìn)入后訓(xùn)練階段。這一階段基于預(yù)訓(xùn)練的基礎(chǔ),進(jìn)一步挖掘模型的推理潛力,通過(guò)監(jiān)督微調(diào)、RL 數(shù)據(jù)整理、RL 訓(xùn)練方法改進(jìn)以及 RL 基礎(chǔ)設(shè)施優(yōu)化等一系列操作,提升模型在推理任務(wù)上的性能。

監(jiān)督微調(diào)

SFT數(shù)據(jù):SFT 數(shù)據(jù)由開(kāi)源和專(zhuān)有蒸餾數(shù)據(jù)組合而成。為確保數(shù)據(jù)質(zhì)量和多樣性,進(jìn)行了三階段預(yù)處理。首先,去除與評(píng)估基準(zhǔn)有 16-gram 重疊的訓(xùn)練查詢,防止數(shù)據(jù)泄露;其次,排除語(yǔ)言混合或響應(yīng)不完整的樣本;最后,將每個(gè)查詢的響應(yīng)數(shù)量限制為 8 個(gè),平衡數(shù)據(jù)多樣性和冗余度。經(jīng)過(guò)預(yù)處理,最終的 SFT 數(shù)據(jù)集包含約 500K 個(gè)樣本。

SFT超參數(shù):使用恒定學(xué)習(xí)率 3×10?? 和批量大小 128 對(duì) MiMo-7B-Base 模型進(jìn)行微調(diào)。在訓(xùn)練過(guò)程中,將樣本打包至最大長(zhǎng)度 32768 token。

RL 數(shù)據(jù)整理

數(shù)學(xué)數(shù)據(jù):數(shù)學(xué)問(wèn)題集來(lái)源廣泛,包括開(kāi)源數(shù)據(jù)集和專(zhuān)有收集的競(jìng)賽級(jí)集合。為降低獎(jiǎng)勵(lì)作弊風(fēng)險(xiǎn),利用 LLM 過(guò)濾基于證明和多項(xiàng)選擇的問(wèn)題,保留原始問(wèn)題,并進(jìn)行全局 n-gram 去重和與評(píng)估基準(zhǔn)的去污染處理。通過(guò)基于模型的難度評(píng)估,進(jìn)一步提高數(shù)據(jù)集質(zhì)量。先過(guò)濾掉先進(jìn)推理模型無(wú)法解決的問(wèn)題,再對(duì)剩余問(wèn)題 用MiMo-7B 的 SFT 版本進(jìn)行 16 次滾動(dòng)評(píng)估,去除通過(guò)率超過(guò) 90% 的簡(jiǎn)單問(wèn)題,最終得到 100K 個(gè)數(shù)學(xué)訓(xùn)練問(wèn)題。

代碼數(shù)據(jù):代碼訓(xùn)練集由開(kāi)源數(shù)據(jù)集和新收集的問(wèn)題集組成。去除無(wú)測(cè)試用例的問(wèn)題,對(duì)于有黃金解決方案的問(wèn)題,排除黃金解決方案無(wú)法通過(guò)所有測(cè)試用例的情況;對(duì)于無(wú)黃金解決方案的問(wèn)題,丟棄先進(jìn)推理模型在 16 次滾動(dòng)中無(wú)測(cè)試用例能解決的問(wèn)題。同樣利用 MiMo-7B 的 SFT 版本過(guò)濾掉容易的問(wèn)題,最終得到 30K 個(gè)代碼問(wèn)題。

獎(jiǎng)勵(lì)函數(shù):訓(xùn)練過(guò)程中僅采用基于規(guī)則的準(zhǔn)確率獎(jiǎng)勵(lì)。對(duì)于數(shù)學(xué)數(shù)據(jù),使用基于規(guī)則的 Math-Verify 庫(kù)評(píng)估響應(yīng)正確性;對(duì)于代碼問(wèn)題,采用測(cè)試難度驅(qū)動(dòng)獎(jiǎng)勵(lì)(在后續(xù)章節(jié)詳細(xì)介紹)。不引入額外獎(jiǎng)勵(lì),如格式獎(jiǎng)勵(lì)和長(zhǎng)度懲罰獎(jiǎng)勵(lì)。

RL 訓(xùn)練方法

采用改進(jìn)版的分組相對(duì)策略優(yōu)化(GRPO)算法,并結(jié)合了研究社區(qū)最近提出的改進(jìn)方法。在訓(xùn)練過(guò)程中,針對(duì)遇到的兩個(gè)關(guān)鍵挑戰(zhàn),即代碼問(wèn)題的稀疏獎(jiǎng)勵(lì)和動(dòng)態(tài)采樣的采樣效率降低問(wèn)題,分別提出了測(cè)試復(fù)雜度驅(qū)動(dòng)獎(jiǎng)勵(lì)函數(shù)和簡(jiǎn)單數(shù)據(jù)重采樣方法。

測(cè)試難度驅(qū)動(dòng)獎(jiǎng)勵(lì):在算法代碼生成任務(wù)中,傳統(tǒng)的基于規(guī)則的獎(jiǎng)勵(lì)策略可能導(dǎo)致模型在面對(duì)困難算法問(wèn)題時(shí)難以獲得獎(jiǎng)勵(lì),影響訓(xùn)練效率。受?chē)?guó)際信息學(xué)奧林匹克競(jìng)賽(IOI)評(píng)分規(guī)則的啟發(fā),提出測(cè)試難度驅(qū)動(dòng)獎(jiǎng)勵(lì)機(jī)制。通過(guò)對(duì)每個(gè)問(wèn)題進(jìn)行多次模型滾動(dòng)評(píng)估,計(jì)算每個(gè)測(cè)試用例的通過(guò)率,根據(jù)通過(guò)率將測(cè)試用例聚類(lèi)為不同難度級(jí)別?;陔y度級(jí)別設(shè)計(jì)了兩種獎(jiǎng)勵(lì)方案:嚴(yán)格獎(jiǎng)勵(lì)方案要求解決方案通過(guò)某難度級(jí)別及以下所有組的測(cè)試才能獲得相應(yīng)獎(jiǎng)勵(lì);軟獎(jiǎng)勵(lì)方案則將每組的總分平均分配到該組的測(cè)試中,最終獎(jiǎng)勵(lì)為所有通過(guò)測(cè)試的得分總和。實(shí)驗(yàn)結(jié)果表明,該獎(jiǎng)勵(lì)機(jī)制能夠更好地利用困難示例進(jìn)行訓(xùn)練,提升模型性能。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


簡(jiǎn)單數(shù)據(jù)過(guò)濾和重采樣:在RL訓(xùn)練中,隨著策略的改進(jìn),越來(lái)越多的問(wèn)題通過(guò)率達(dá)到 1,這些問(wèn)題在動(dòng)態(tài)采樣機(jī)制下會(huì)被過(guò)濾掉,導(dǎo)致采樣效率下降。若直接從訓(xùn)練數(shù)據(jù)中完全移除通過(guò)率為1的問(wèn)題,會(huì)使策略更新不穩(wěn)定。為此,開(kāi)發(fā)了簡(jiǎn)單數(shù)據(jù)重采樣策略,在訓(xùn)練過(guò)程中維護(hù)一個(gè)簡(jiǎn)單數(shù)據(jù)池,存放通過(guò)率為 1 的問(wèn)題。在進(jìn)行滾動(dòng)評(píng)估時(shí),以一定概率(實(shí)驗(yàn)中為10%)從簡(jiǎn)單數(shù)據(jù)池中采樣數(shù)據(jù),有效穩(wěn)定了策略更新,提高了采樣效率,尤其在RL訓(xùn)練后期效果顯著。

超參數(shù):實(shí)驗(yàn)中設(shè)置訓(xùn)練批量大小為 512,演員小批量大小為 32,每次訓(xùn)練迭代執(zhí)行 16 次梯度更新,學(xué)習(xí)率為1e-6。最大序列長(zhǎng)度設(shè)置為 32768 token,以支持復(fù)雜推理任務(wù)。訓(xùn)練階段,將溫度和 top-p 參數(shù)都配置為1.0,以促進(jìn)輸出多樣性。

RL 基礎(chǔ)設(shè)施

為實(shí)現(xiàn)高效的基于動(dòng)態(tài)采樣的 RL 訓(xùn)練,開(kāi)發(fā)了無(wú)縫滾動(dòng)引擎并增強(qiáng)了 vLLM 的魯棒性。整個(gè) RL 系統(tǒng)基于開(kāi)源 RL 訓(xùn)練庫(kù) ver l構(gòu)建,verl 使用 Ray 管理計(jì)算和通信,但存在 GPU 空閑時(shí)間長(zhǎng)等問(wèn)題。

無(wú)縫滾動(dòng)引擎:無(wú)縫滾動(dòng)引擎通過(guò)高效的任務(wù)調(diào)度優(yōu)化 GPU 在滾動(dòng)工作中的利用率,減少空閑時(shí)間。它包含連續(xù)滾動(dòng)、異步獎(jiǎng)勵(lì)計(jì)算和早期終止三個(gè)組件。連續(xù)滾動(dòng)主動(dòng)處理完成的滾動(dòng)任務(wù)并啟動(dòng)新任務(wù),消除生成和獎(jiǎng)勵(lì)階段之間的同步障礙;異步獎(jiǎng)勵(lì)計(jì)算利用 Ray 啟動(dòng)異步獎(jiǎng)勵(lì)計(jì)算,解決代碼相關(guān)數(shù)據(jù)獎(jiǎng)勵(lì)計(jì)算耗時(shí)的問(wèn)題,防止?jié)L動(dòng)管道出現(xiàn)瓶頸;早期終止在有效樣本數(shù)量達(dá)到訓(xùn)練批量大小時(shí),采用先進(jìn)先出的選擇策略終止正在進(jìn)行的任務(wù),確保數(shù)據(jù)分布的完整性。實(shí)驗(yàn)表明,無(wú)縫滾動(dòng)引擎在訓(xùn)練和驗(yàn)證過(guò)程中分別實(shí)現(xiàn)了 2.29 倍和 1.96 倍的加速,有效減少了 GPU 空閑時(shí)間和樣本浪費(fèi)。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


基于vLLM的推理引擎:RL 系統(tǒng)采用 vLLM 作為推理引擎,并對(duì)其進(jìn)行擴(kuò)展以適應(yīng)模型的新特征。實(shí)現(xiàn)并開(kāi)源了對(duì) MTP 的支持,使模型能夠高效推理。同時(shí),增強(qiáng)了引擎的魯棒性,在搶占時(shí)清除前綴緩存中的計(jì)算塊以保持KVCache 一致性,增加調(diào)度器步驟時(shí)禁用異步輸出處理以確保兼容性和優(yōu)化性能。

后訓(xùn)練評(píng)估

Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


評(píng)估設(shè)置:在多種基準(zhǔn)測(cè)試中對(duì)推理模型進(jìn)行全面評(píng)估,涵蓋語(yǔ)言理解與推理、科學(xué)問(wèn)答、指令跟隨、閱讀理解、數(shù)學(xué)推理和編碼等領(lǐng)域。評(píng)估時(shí),對(duì)所有基準(zhǔn)測(cè)試設(shè)置采樣溫度為 0.6,top-p 為 0.95。對(duì)于數(shù)學(xué)推理、編碼和科學(xué)問(wèn)答基準(zhǔn)測(cè)試,將最大生成長(zhǎng)度設(shè)置為 32768 token,其他基準(zhǔn)測(cè)試設(shè)置為 8192 token。將 MiMo-7B-RL 與多個(gè)強(qiáng)大的基線模型進(jìn)行比較,包括非推理模型 GPT-4o-0513、Claude-Sonnet-3.5-1022 和推理模型OpenAI-o1-mini、QwQ-32BPreview、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B。

評(píng)估結(jié)果:在數(shù)學(xué)推理方面,MiMo-7B-RL 在可比參數(shù)規(guī)模的模型中表現(xiàn)卓越,僅略落后于 DeepSeek-R1-Distill-Qwen-14B。在算法代碼生成任務(wù)中,MiMo-7B-RL 表現(xiàn)極為出色,在 LiveCodeBench v5 和 v6 測(cè)試中,均顯著超越 OpenAI o1-mini 和 QwQ-32B-Preview 等模型,展示了其強(qiáng)大且穩(wěn)定的能力。在通用性能方面,MiMo-7B-RL 也表現(xiàn)出色,超過(guò)了 QwQ-32B-Preview 和 DeepSeek-R1-Distill-Qwen-7B。此外,對(duì)不同版本的 MiMo-7B 模型進(jìn)行評(píng)估發(fā)現(xiàn),從基礎(chǔ)

模型進(jìn)行 RL 訓(xùn)練呈現(xiàn)出較強(qiáng)的增長(zhǎng)趨勢(shì),而從 SFT 模型進(jìn)行 RL 訓(xùn)練則能達(dá)到更高的性能上限。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)

討論

SFT對(duì)格式對(duì)齊的影響:在從 MiMo-7B-Base 進(jìn)行初始 RL 訓(xùn)練時(shí),發(fā)現(xiàn)模型主要學(xué)習(xí)適應(yīng)答案提取功能,如數(shù)學(xué)問(wèn)題的特定格式。為此研究了“輕量級(jí)”SFT 以幫助基礎(chǔ)模型對(duì)齊預(yù)期答案格式,但結(jié)果表明,MiMo-7B-RL-Lite SFT 模型在推理潛力和最終性能上均表現(xiàn)不佳,其起始性能雖高于 MiMo7B-RL-Zero,但在訓(xùn)練 500 步后落后于基礎(chǔ)模型的訓(xùn)練軌跡,且與經(jīng)過(guò)“重量級(jí)”SFT 的 MiMo-7B-RL 相比,最終結(jié)果更差。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)


不同領(lǐng)域之間的干擾:在從 MiMo7B-Base 進(jìn)行 RL 訓(xùn)練的后期,難以維持?jǐn)?shù)學(xué)和編碼任務(wù)之間的性能平衡。在訓(xùn)練步驟 2000 到 2500之 間,模型在代碼問(wèn)題上持續(xù)改進(jìn),而在數(shù)學(xué)推理任務(wù)上性能波動(dòng)下降。而從冷啟動(dòng)的SFT 模型進(jìn)行 RL 訓(xùn)練在兩個(gè)領(lǐng)域均有持續(xù)改進(jìn)。分析發(fā)現(xiàn),基礎(chǔ)模型的強(qiáng)探索能力可能導(dǎo)致其在數(shù)學(xué)問(wèn)題上進(jìn)行獎(jiǎng)勵(lì)作弊,而代碼問(wèn)題基于測(cè)試用例的驗(yàn)證機(jī)制使獎(jiǎng)勵(lì)利用更困難,這凸顯了高質(zhì)量數(shù)學(xué)問(wèn)題集對(duì)穩(wěn)健RL訓(xùn)練的重要性。

語(yǔ)言混合懲罰:與 DeepSeek-R1-Zero 類(lèi)似,在 MiMo-7B-Base 的 RL 訓(xùn)練中也觀察到語(yǔ)言混合問(wèn)題。為緩解該問(wèn)題,在獎(jiǎng)勵(lì)函數(shù)中引入語(yǔ)言混合懲罰,但設(shè)計(jì)這樣的懲罰函數(shù)具有挑戰(zhàn)性。檢測(cè)英文響應(yīng)中的中文字符相對(duì)容易,但檢測(cè)中文響應(yīng)中的英文單詞因數(shù)學(xué)方程和代碼中本身包含英文單詞而變得困難,導(dǎo)致懲罰

不僅無(wú)法完全解決語(yǔ)言混合問(wèn)題,還可能引入獎(jiǎng)勵(lì)作弊風(fēng)險(xiǎn),如無(wú)論問(wèn)題語(yǔ)言如何都生成英文響應(yīng)。

結(jié)論

MiMo-7B系列大語(yǔ)言模型通過(guò)優(yōu)化預(yù)訓(xùn)練和后訓(xùn)練過(guò)程,成功解鎖了先進(jìn)的推理能力。在預(yù)訓(xùn)練階段,通過(guò)優(yōu)化數(shù)據(jù)處理、設(shè)計(jì)合理的模型架構(gòu)和設(shè)置超參數(shù),使 MiMo-7B-Base 接觸到豐富多樣的推理模式,具備了卓越的推理潛力,超越了規(guī)模大得多的模型。在后訓(xùn)練階段,借助強(qiáng)大高效的RL框架,訓(xùn)練出的 MiMo-7B-RL-Zero 和MiMo-7B-RL 在數(shù)學(xué)、代碼和通用推理任務(wù)中展現(xiàn)出優(yōu)異的推理能力。特別是 MiMo-7B-RL 在 LiveCodeBench v6 和 AIME 2025 測(cè)試中分別取得了 49.3% 和 55.4% 的成績(jī),超越了 OpenAI的o1-mini。小米的這一研究成果為開(kāi)發(fā)更強(qiáng)大的推理模型提供了寶貴的經(jīng)驗(yàn)和思路,有望推動(dòng)整個(gè)大語(yǔ)言模型推理領(lǐng)域的進(jìn)一步發(fā)展。


Xiaomi MiMo:為“推理而生”-AI.x社區(qū)

本文轉(zhuǎn)載自???AIGC前沿技術(shù)追蹤???,作者:AIGC前沿技術(shù)追蹤

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦