只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!
這個工作目標(biāo)是,找到一種簡單的方法,可以實現(xiàn)test-time scalling。
關(guān)鍵點有2個,構(gòu)建高質(zhì)量的監(jiān)督數(shù)據(jù)1k,用于監(jiān)督微調(diào);一個Budget Forcing的方法,用于限定模型的推理過程。
經(jīng)過這么一折騰,模型的性能隨著推理token數(shù)量變長而編號。
- 如何構(gòu)建高質(zhì)量的1k數(shù)據(jù)
- 初始收集:從 16 個不同的來源收集了 59,029 個問題,包括 NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval 等。
- 最終篩選:通過質(zhì)量、難度和多樣性三個標(biāo)準(zhǔn),從 59K 個問題中篩選出 1,000 個樣本。具體步驟包括:
質(zhì)量:去除格式錯誤或低質(zhì)量的樣本。
難度:根據(jù)模型性能和推理長度評估問題難度,去除模型能正確解答的問題。
多樣性:使用 Claude 3.5 Sonnet 將問題分類到不同的領(lǐng)域,確保樣本覆蓋廣泛的學(xué)科。
- Budget Forcing (通過在測試時強(qiáng)制設(shè)定最大或最小思考 token 數(shù)量來控制模型的推理過程)
強(qiáng)制最大思考 token 數(shù)量:如果模型生成的思考 token 超過設(shè)定的上限,強(qiáng)制結(jié)束思考過程,并追加“Final Answer:”以提供當(dāng)前最佳答案。
強(qiáng)制最小思考 token 數(shù)量:如果模型試圖結(jié)束思考過程,抑制思考結(jié)束 token 的生成,并在當(dāng)前推理軌跡后追加“Wait”,鼓勵模型繼續(xù)思考。
消融實驗:
數(shù)據(jù)量、多樣性和難度:通過隨機(jī)選擇、僅選擇最長推理軌跡或僅最大化多樣性來構(gòu)建數(shù)據(jù)集,測試結(jié)果表明這些方法的性能均低于結(jié)合質(zhì)量、難度和多樣性的方法。
測試時擴(kuò)展方法:比較了Budget Forcing、條件長度控制和拒絕采樣等方法,發(fā)現(xiàn)Budget Forcing在控制性和性能上表現(xiàn)最佳。
最后,整個過程證明了通過簡單的測試時擴(kuò)展方法,使用少量數(shù)據(jù)即可實現(xiàn)強(qiáng)大的推理性能。s1-32B 模型在多個基準(zhǔn)測試中表現(xiàn)出色,超越了閉源模型如 OpenAI 的 o1-preview。
本文轉(zhuǎn)載自??NLP前沿??,作者: 獼猴桃
