小模型越級(jí)挑戰(zhàn)14倍參數(shù)大模型,谷歌開(kāi)啟Test-Time端新的Scaling Law
不必增加模型參數(shù),計(jì)算資源相同,小模型性能超過(guò)比它大14倍的模型!
谷歌DeepMind最新研究引發(fā)熱議,甚至有人表示這可能就是OpenAI即將發(fā)布的新模型草莓所用的方法。
圖片
研究團(tuán)隊(duì)探究了在大模型推理時(shí)進(jìn)行計(jì)算優(yōu)化的方法,根據(jù)給定的prompt難度,動(dòng)態(tài)地分配測(cè)試時(shí)(Test-Time)的計(jì)算資源。
結(jié)果發(fā)現(xiàn)這種方法在一些情況下比單純擴(kuò)展模型參數(shù)更經(jīng)濟(jì)有效。
圖片
換句話說(shuō),在預(yù)訓(xùn)練階段花費(fèi)更少的計(jì)算資源,而在推理階段花費(fèi)更多,這種策略可能更好。
推理時(shí)用額外計(jì)算來(lái)改進(jìn)輸出
這項(xiàng)研究的核心問(wèn)題是——
在一定計(jì)算預(yù)算內(nèi)解決prompt問(wèn)題,不同的計(jì)算策略對(duì)于不同問(wèn)題的有效性有顯著差異。我們應(yīng)如何評(píng)估并選擇最適合當(dāng)前問(wèn)題的測(cè)試時(shí)計(jì)算策略?這種策略與僅僅使用一個(gè)更大的預(yù)訓(xùn)練模型相比,效果如何?
圖片
DeepMind研究團(tuán)隊(duì)探究了兩種主要機(jī)制來(lái)擴(kuò)展測(cè)試時(shí)的計(jì)算。
一種是針對(duì)基于過(guò)程的密集驗(yàn)證器獎(jiǎng)勵(lì)模型(PRM)進(jìn)行搜索。
PRM可以在模型生成答案過(guò)程中的每個(gè)步驟都提供評(píng)分,用于引導(dǎo)搜索算法,動(dòng)態(tài)調(diào)整搜索策略,通過(guò)在生成過(guò)程中識(shí)別錯(cuò)誤或低效的路徑,幫助避免在這些路徑上浪費(fèi)計(jì)算資源。
另一種方法是在測(cè)試時(shí)根據(jù)prompt自適應(yīng)地更新模型的響應(yīng)分布。
模型不是一次性生成最終答案,而是逐步修改和改進(jìn)它之前生成的答案,按順序進(jìn)行修訂。
以下是并行采樣與順序修訂的比較。并行采樣獨(dú)立生成N個(gè)答案,而順序修訂則是每個(gè)答案依賴于前一次生成的結(jié)果,逐步修訂。
圖片
通過(guò)對(duì)這兩種策略的研究,團(tuán)隊(duì)發(fā)現(xiàn)不同方法的有效性高度依賴于prompt的難度。
圖片
由此,團(tuán)隊(duì)提出了“計(jì)算最優(yōu)”擴(kuò)展策略,根據(jù)prompt難度自適應(yīng)地分配測(cè)試時(shí)的計(jì)算資源。
他們將問(wèn)題分為五個(gè)難度等級(jí)并為每個(gè)等級(jí)選擇最佳策略。
如下圖左側(cè),可以看到,在修訂場(chǎng)景中,標(biāo)準(zhǔn)的best-of-N方法(生成多個(gè)答案后,從中選出最優(yōu)的一個(gè))與計(jì)算最優(yōu)擴(kuò)展相比,它們之間的差距逐漸擴(kuò)大,使得計(jì)算最優(yōu)擴(kuò)展在使用少4倍的測(cè)試計(jì)算資源的情況下,能夠超越best-of-N方法。
同樣在PRM搜索環(huán)境中,計(jì)算最優(yōu)擴(kuò)展在初期相比best-of-N有顯著的提升,甚至在一些情況下,以少4倍的計(jì)算資源接近或超過(guò)best-of-N的表現(xiàn)。
圖片
上圖右側(cè)比較了在測(cè)試階段進(jìn)行計(jì)算最優(yōu)擴(kuò)展的PaLM 2-S模型與不使用額外測(cè)試計(jì)算的預(yù)訓(xùn)練模型之間的表現(xiàn),后者是一個(gè)*大14倍的預(yù)訓(xùn)練模型。
研究人員考慮了在兩種模型中都預(yù)期會(huì)有?? tokens的預(yù)訓(xùn)練和?? tokens的推理。可以看到,在修訂場(chǎng)景中(右上),當(dāng)?? << ??時(shí),測(cè)試階段的計(jì)算通常優(yōu)于額外的預(yù)訓(xùn)練。
然而,隨著推理與預(yù)訓(xùn)練token比率的增加,在簡(jiǎn)單問(wèn)題上測(cè)試階段計(jì)算仍然是首選。而在較難的問(wèn)題上,預(yù)訓(xùn)練在這些情況下更為優(yōu)越,研究人員在PRM搜索場(chǎng)景中也觀察到了類似的趨勢(shì)。
研究還比較了測(cè)試時(shí)計(jì)算與增加預(yù)訓(xùn)練的效果,在計(jì)算量匹配的情況下,對(duì)簡(jiǎn)單和中等難度的問(wèn)題,額外的測(cè)試時(shí)計(jì)算通常優(yōu)于增加預(yù)訓(xùn)練。
而對(duì)于難度較大的問(wèn)題,增加預(yù)訓(xùn)練計(jì)算更為有效。
圖片
總的來(lái)說(shuō),研究揭示了當(dāng)前的測(cè)試時(shí)計(jì)算擴(kuò)展方法可能無(wú)法完全替代預(yù)訓(xùn)練的擴(kuò)展,但已顯示出在某些情況下的優(yōu)勢(shì)。
引發(fā)網(wǎng)友熱議
這項(xiàng)研究被網(wǎng)友po出來(lái)后,引發(fā)熱議。
有網(wǎng)友甚至表示這解釋了OpenAI“草莓”模型的推理方法。
圖片
為什么這么說(shuō)?
原來(lái)就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓計(jì)劃未來(lái)兩周內(nèi)發(fā)布,推理能力大幅提高,用戶輸入無(wú)需額外的提示詞。
草莓沒(méi)有一味追求Scaling Law,與其它模型的最大區(qū)別就是會(huì)在回答前進(jìn)行“思考”。
所以草莓響應(yīng)需要10-20秒。
圖片
這位網(wǎng)友猜測(cè),草莓可能就是用了類似谷歌DeepMind這項(xiàng)研究的方法(doge):
如果你不認(rèn)同,給個(gè)替代推理方法解釋!
圖片
解釋就解釋:
本文探討了 best-of-n 采樣和蒙特卡洛樹(shù)搜索(MCTS)。
草莓可能是一種具有特殊tokens(例如回溯、規(guī)劃等)的混合深度模型。它可能會(huì)通過(guò)人類數(shù)據(jù)標(biāo)注員和來(lái)自容易驗(yàn)證領(lǐng)域(如數(shù)學(xué)/編程)的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。
圖片
論文鏈接:https://arxiv.org/pdf/2408.03314
參考鏈接:
[1]https://x.com/deedydas/status/1833539735853449360
[2]https://x.com/rohanpaul_ai/status/1833648489898594815