自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!

發(fā)布于 2025-2-7 14:07
瀏覽
0收藏

只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!-AI.x社區(qū)

這個工作目標(biāo)是,找到一種簡單的方法,可以實現(xiàn)test-time scalling。

關(guān)鍵點有2個,構(gòu)建高質(zhì)量的監(jiān)督數(shù)據(jù)1k,用于監(jiān)督微調(diào);一個Budget Forcing的方法,用于限定模型的推理過程。

經(jīng)過這么一折騰,模型的性能隨著推理token數(shù)量變長而編號。

只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!-AI.x社區(qū)

  1. 如何構(gòu)建高質(zhì)量的1k數(shù)據(jù)
  • 初始收集:從 16 個不同的來源收集了 59,029 個問題,包括 NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval 等。
  • 最終篩選:通過質(zhì)量、難度和多樣性三個標(biāo)準(zhǔn),從 59K 個問題中篩選出 1,000 個樣本。具體步驟包括:

質(zhì)量:去除格式錯誤或低質(zhì)量的樣本。

難度:根據(jù)模型性能和推理長度評估問題難度,去除模型能正確解答的問題。

多樣性:使用 Claude 3.5 Sonnet 將問題分類到不同的領(lǐng)域,確保樣本覆蓋廣泛的學(xué)科。

  1. Budget Forcing (通過在測試時強(qiáng)制設(shè)定最大或最小思考 token 數(shù)量來控制模型的推理過程)

強(qiáng)制最大思考 token 數(shù)量:如果模型生成的思考 token 超過設(shè)定的上限,強(qiáng)制結(jié)束思考過程,并追加“Final Answer:”以提供當(dāng)前最佳答案。

強(qiáng)制最小思考 token 數(shù)量:如果模型試圖結(jié)束思考過程,抑制思考結(jié)束 token 的生成,并在當(dāng)前推理軌跡后追加“Wait”,鼓勵模型繼續(xù)思考。

消融實驗:

數(shù)據(jù)量、多樣性和難度:通過隨機(jī)選擇、僅選擇最長推理軌跡或僅最大化多樣性來構(gòu)建數(shù)據(jù)集,測試結(jié)果表明這些方法的性能均低于結(jié)合質(zhì)量、難度和多樣性的方法。

只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!-AI.x社區(qū)

測試時擴(kuò)展方法:比較了Budget Forcing、條件長度控制和拒絕采樣等方法,發(fā)現(xiàn)Budget Forcing在控制性和性能上表現(xiàn)最佳。

只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!-AI.x社區(qū)

最后,整個過程證明了通過簡單的測試時擴(kuò)展方法,使用少量數(shù)據(jù)即可實現(xiàn)強(qiáng)大的推理性能。s1-32B 模型在多個基準(zhǔn)測試中表現(xiàn)出色,超越了閉源模型如 OpenAI 的 o1-preview。

本文轉(zhuǎn)載自??NLP前沿??,作者: 獼猴桃 

標(biāo)簽
已于2025-2-7 15:40:45修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦