自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="azcon"><p id="azcon"></p></sub>

<sub id="azcon"><p id="azcon"></p></sub>

<style id="azcon"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

只需50美元！最簡單的推理擴(kuò)展方案，效果媲美o1！

發(fā)布于 2025-2-7 14:07

瀏覽

0收藏

只需50美元！最簡單的推理擴(kuò)展方案，效果媲美o1！-AI.x社區(qū)

這個工作目標(biāo)是，找到一種簡單的方法，可以實現(xiàn)test-time scalling。

關(guān)鍵點有2個，構(gòu)建高質(zhì)量的監(jiān)督數(shù)據(jù)1k，用于監(jiān)督微調(diào)；一個Budget Forcing的方法，用于限定模型的推理過程。

經(jīng)過這么一折騰，模型的性能隨著推理token數(shù)量變長而編號。

只需50美元！最簡單的推理擴(kuò)展方案，效果媲美o1！-AI.x社區(qū)

如何構(gòu)建高質(zhì)量的1k數(shù)據(jù)

初始收集：從 16 個不同的來源收集了 59,029 個問題，包括 NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval 等。
最終篩選：通過質(zhì)量、難度和多樣性三個標(biāo)準(zhǔn)，從 59K 個問題中篩選出 1,000 個樣本。具體步驟包括：

質(zhì)量：去除格式錯誤或低質(zhì)量的樣本。

難度：根據(jù)模型性能和推理長度評估問題難度，去除模型能正確解答的問題。

多樣性：使用 Claude 3.5 Sonnet 將問題分類到不同的領(lǐng)域，確保樣本覆蓋廣泛的學(xué)科。

Budget Forcing （通過在測試時強(qiáng)制設(shè)定最大或最小思考 token 數(shù)量來控制模型的推理過程）

強(qiáng)制最大思考 token 數(shù)量：如果模型生成的思考 token 超過設(shè)定的上限，強(qiáng)制結(jié)束思考過程，并追加“Final Answer:”以提供當(dāng)前最佳答案。

強(qiáng)制最小思考 token 數(shù)量：如果模型試圖結(jié)束思考過程，抑制思考結(jié)束 token 的生成，并在當(dāng)前推理軌跡后追加“Wait”，鼓勵模型繼續(xù)思考。

消融實驗：

數(shù)據(jù)量、多樣性和難度：通過隨機(jī)選擇、僅選擇最長推理軌跡或僅最大化多樣性來構(gòu)建數(shù)據(jù)集，測試結(jié)果表明這些方法的性能均低于結(jié)合質(zhì)量、難度和多樣性的方法。

只需50美元！最簡單的推理擴(kuò)展方案，效果媲美o1！-AI.x社區(qū)

測試時擴(kuò)展方法：比較了Budget Forcing、條件長度控制和拒絕采樣等方法，發(fā)現(xiàn)Budget Forcing在控制性和性能上表現(xiàn)最佳。

只需50美元！最簡單的推理擴(kuò)展方案，效果媲美o1！-AI.x社區(qū)

最后，整個過程證明了通過簡單的測試時擴(kuò)展方法，使用少量數(shù)據(jù)即可實現(xiàn)強(qiáng)大的推理性能。s1-32B 模型在多個基準(zhǔn)測試中表現(xiàn)出色，超越了閉源模型如 OpenAI 的 o1-preview。

本文轉(zhuǎn)載自??NLP前沿??，作者：獼猴桃

標(biāo)簽

已于2025-2-7 15:40:45修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

華為諾亞頻域LLM「帝江」：僅需1/50訓(xùn)練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 2798瀏覽 ? 0回復(fù)
剛剛，OpenAI發(fā)布史上最強(qiáng)模型-o1，推理能力超人類博士！

Aceryt ? 2410瀏覽 ? 0回復(fù)
OpenAI o1模型推理能力大幅提升的背后：重復(fù)采樣如何提升AI推理能力

Syrupup ? 3496瀏覽 ? 0回復(fù)
OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 2255瀏覽 ? 0回復(fù)
o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！

PaperAgent ? 2432瀏覽 ? 0回復(fù)
OpenAI o1：用內(nèi)部思維鏈進(jìn)行復(fù)雜推理

shizhi02 ? 2429瀏覽 ? 0回復(fù)
o1快慢思考的風(fēng)又吹到了Agent！

PaperAgent ? 2753瀏覽 ? 0回復(fù)
向o1看齊，Google開源RAG推理擴(kuò)展，提升近60%

NLP前沿1 ? 1938瀏覽 ? 0回復(fù)
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2456瀏覽 ? 0回復(fù)
解密o1推理過程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 2852瀏覽 ? 0回復(fù)
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 2583瀏覽 ? 0回復(fù)
o1的規(guī)劃能力如何？LRM是未來嗎？

探索AGI ? 1842瀏覽 ? 0回復(fù)
阿里發(fā)布類o1模型QWQ，可自我反思糾錯，實測數(shù)學(xué)推理遠(yuǎn)超o1、DS-R1，人人免費

51CTO技術(shù)棧 ? 2616瀏覽 ? 0回復(fù)
Kimi深夜炸場：滿血版多模態(tài)o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產(chǎn)o1絕對不是巧合！

51CTO技術(shù)棧 ? 1859瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓(xùn)練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 5136瀏覽 ? 0回復(fù)
李飛飛+50美元+蒸餾 S1=? DeepSeekR1

CourseAI ? 2093瀏覽 ? 0回復(fù)
S1：簡單高效的測試時推理能力擴(kuò)展方法

上堵吟1 ? 1884瀏覽 ? 0回復(fù)
o1模型醫(yī)學(xué)推理驚人，超過人類醫(yī)生

Aceryt ? 1672瀏覽 ? 0回復(fù)
比DeepSeek、o1高3倍！首創(chuàng)無服務(wù)器強(qiáng)化微調(diào)，只需十幾個數(shù)據(jù)點

Aceryt ? 1556瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 2025-04-23 07:14:33發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇： RAG升級二維戰(zhàn)士！通義實驗室放大招

下一篇：這個開源項目厲害了：一鍵部署DeepSeek R1！

社區(qū)精華內(nèi)容

目錄

<legend id="td4vh"><track id="td4vh"></track></legend>