媲美OpenAI-o3,剛剛開源模型DeepCoder,訓(xùn)練方法、數(shù)據(jù)集大公開
今天凌晨4點(diǎn),著名大模型訓(xùn)練平臺(tái)Together AI和智能體平臺(tái)Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。
該模型只有140億參數(shù),但在知名代碼測(cè)試平臺(tái)LiveCodeBench的測(cè)試分為60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的評(píng)測(cè)數(shù)據(jù)同樣非常出色,幾乎與o1、o3-mini差不多。
值得一提的是,Together AI不僅開源了DeepCoder-14B模型權(quán)重,還把訓(xùn)練數(shù)據(jù)集、訓(xùn)練方法、訓(xùn)練日志和優(yōu)化方法全部公開,幫助開發(fā)者更深度的了解這個(gè)模型所有開發(fā)流程。
開源地址:??https://huggingface.co/agentica-org/DeepCoder-14B-Preview??
github:??https://github.com/agentica-project/rllm??
DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎(chǔ)之上,通過分布式強(qiáng)化學(xué)習(xí)(RL)進(jìn)行了微調(diào)。
在開發(fā)過程中,研究人員首先構(gòu)建了一個(gè)高質(zhì)量訓(xùn)練數(shù)據(jù)集,包含24K個(gè)可驗(yàn)證的編程問題:涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數(shù)據(jù)集中的驗(yàn)證問題等。
為了確保數(shù)據(jù)質(zhì)量,通過程序驗(yàn)證、測(cè)試過濾和去重等步驟。程序化驗(yàn)證,每個(gè)問題都會(huì)使用外部官方解決方案自動(dòng)進(jìn)行驗(yàn)證。會(huì)過濾數(shù)據(jù)集,只包含官方解決方案通過所有單元測(cè)試的問題。
測(cè)試過濾,每個(gè)問題必須至少包含5個(gè)單元測(cè)試。重復(fù)數(shù)據(jù)刪除,刪除了數(shù)據(jù)集中的重復(fù)問題,以避免污染。
在代碼強(qiáng)化學(xué)習(xí)訓(xùn)練中,DeepCoder 使用了兩種沙盒來(lái)運(yùn)行單元測(cè)試并計(jì)算獎(jiǎng)勵(lì)。
Together Code Interpreter 是一個(gè)快速高效的環(huán)境,與RL訓(xùn)練直接兼容,成本低且可擴(kuò)展性強(qiáng),能夠支持100多個(gè)并發(fā)沙盒和每分鐘1000多個(gè)沙盒執(zhí)行。
本地代碼沙盒則是一個(gè)獨(dú)立的、受保護(hù)的 Python子進(jìn)程,遵循官方 LiveCodeBench倉(cāng)庫(kù)中的相同評(píng)估代碼,確保了結(jié)果與現(xiàn)有排行榜的一致性。
在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面,DeepCoder采用了稀疏結(jié)果獎(jiǎng)勵(lì)模型(ORM),避免分配部分獎(jiǎng)勵(lì),從而防止模型通過獎(jiǎng)勵(lì)黑客行為來(lái)獲取不準(zhǔn)確的獎(jiǎng)勵(lì)信號(hào)。
獎(jiǎng)勵(lì)函數(shù)簡(jiǎn)單而明確:如果生成的代碼通過所有采樣單元測(cè)試,則獎(jiǎng)勵(lì)為 1;否則為 0。這種設(shè)計(jì)確保了模型能夠?qū)W⒂谏筛哔|(zhì)量的代碼,而不是通過記憶測(cè)試用例來(lái)獲取獎(jiǎng)勵(lì)。
為了實(shí)現(xiàn)更穩(wěn)定的訓(xùn)練過程,DeepCoder的訓(xùn)練采用了 GRPO+,這是對(duì)原始 GRPO 算法的改進(jìn)版本。
通過消除熵?fù)p失和 KL 損失、引入過長(zhǎng)過濾和上限裁剪等技術(shù),GRPO+ 使得模型在訓(xùn)練過程中能夠保持穩(wěn)定的熵值,避免訓(xùn)練崩潰,并且能夠更自然地生成較長(zhǎng)的輸出,從而提高了模型的推理能力。
此外,DeepCoder-14B-Preview 采用了迭代上下文擴(kuò)展技術(shù),使模型能夠從較短的上下文長(zhǎng)度開始學(xué)習(xí),然后逐步泛化到更長(zhǎng)的上下文。該模型的上下文窗口從 16K 擴(kuò)展到 32K,最終在 64K上下文中評(píng)估時(shí)達(dá)到了60.6%的準(zhǔn)確率。
為了加速端到端的RL訓(xùn)練,DeepCoder 團(tuán)隊(duì)引入并開源了 verl-pipeline,這是 verl 的一個(gè)優(yōu)化擴(kuò)展。通過一次性流水線技術(shù),DeepCoder 實(shí)現(xiàn)了訓(xùn)練、獎(jiǎng)勵(lì)計(jì)算和采樣的完全流水線化。
同時(shí),獎(jiǎng)勵(lì)計(jì)算與采樣交錯(cuò)進(jìn)行,減少了獎(jiǎng)勵(lì)評(píng)估的開銷。這些優(yōu)化使得訓(xùn)練時(shí)間減少了 2 倍,特別是在需要運(yùn)行數(shù)千個(gè)測(cè)試用例的編碼任務(wù)中,顯著提高了訓(xùn)練效率。
雖然DeepCoder剛開源但評(píng)價(jià)非常高,網(wǎng)友表示,這相當(dāng)令人驚訝。它不僅是真正意義上的開源,而且他們還對(duì)廣義信賴域策略優(yōu)化算法(GRPO)進(jìn)行了多項(xiàng)改進(jìn),并且在訓(xùn)練過程中為采樣流水線增添了額外的效率提升。
太厲害了!等不及這款模型在 Ollama 平臺(tái)上體驗(yàn)了。
圣誕節(jié)提前到來(lái)了。
傳奇!開源就應(yīng)該這樣。
關(guān)于Together AI
Together AI成立于2022年,主打云大模型平臺(tái)支持超過200種開源AI模型,包括Llama系列、DeepSeek-R1等,并優(yōu)化了高速推理和模型訓(xùn)練的基礎(chǔ)設(shè)施。目前擁有超過3.6萬(wàn)塊GB200 NVL72組成的超大GPU算力群。
此外,Together AI還提供模型微調(diào)、Agent智能自動(dòng)化工作流和合成數(shù)據(jù)生成等,為大企業(yè)提供底層服務(wù)。
前不久,Together AI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
