自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小模型越級(jí)挑戰(zhàn)14倍參數(shù)大模型,谷歌開(kāi)啟Test-Time端新的Scaling Law

人工智能
PRM可以在模型生成答案過(guò)程中的每個(gè)步驟都提供評(píng)分,用于引導(dǎo)搜索算法,動(dòng)態(tài)調(diào)整搜索策略,通過(guò)在生成過(guò)程中識(shí)別錯(cuò)誤或低效的路徑,幫助避免在這些路徑上浪費(fèi)計(jì)算資源。

不必增加模型參數(shù),計(jì)算資源相同,小模型性能超過(guò)比它大14倍的模型!

谷歌DeepMind最新研究引發(fā)熱議,甚至有人表示這可能就是OpenAI即將發(fā)布的新模型草莓所用的方法。

圖片圖片

研究團(tuán)隊(duì)探究了在大模型推理時(shí)進(jìn)行計(jì)算優(yōu)化的方法,根據(jù)給定的prompt難度,動(dòng)態(tài)地分配測(cè)試時(shí)(Test-Time)的計(jì)算資源。

結(jié)果發(fā)現(xiàn)這種方法在一些情況下比單純擴(kuò)展模型參數(shù)更經(jīng)濟(jì)有效。

圖片圖片

換句話說(shuō),在預(yù)訓(xùn)練階段花費(fèi)更少的計(jì)算資源,而在推理階段花費(fèi)更多,這種策略可能更好。

推理時(shí)用額外計(jì)算來(lái)改進(jìn)輸出

這項(xiàng)研究的核心問(wèn)題是——

在一定計(jì)算預(yù)算內(nèi)解決prompt問(wèn)題,不同的計(jì)算策略對(duì)于不同問(wèn)題的有效性有顯著差異。我們應(yīng)如何評(píng)估并選擇最適合當(dāng)前問(wèn)題的測(cè)試時(shí)計(jì)算策略?這種策略與僅僅使用一個(gè)更大的預(yù)訓(xùn)練模型相比,效果如何?

圖片圖片

DeepMind研究團(tuán)隊(duì)探究了兩種主要機(jī)制來(lái)擴(kuò)展測(cè)試時(shí)的計(jì)算。

一種是針對(duì)基于過(guò)程的密集驗(yàn)證器獎(jiǎng)勵(lì)模型(PRM)進(jìn)行搜索。

PRM可以在模型生成答案過(guò)程中的每個(gè)步驟都提供評(píng)分,用于引導(dǎo)搜索算法,動(dòng)態(tài)調(diào)整搜索策略,通過(guò)在生成過(guò)程中識(shí)別錯(cuò)誤或低效的路徑,幫助避免在這些路徑上浪費(fèi)計(jì)算資源。

另一種方法是在測(cè)試時(shí)根據(jù)prompt自適應(yīng)地更新模型的響應(yīng)分布

模型不是一次性生成最終答案,而是逐步修改和改進(jìn)它之前生成的答案,按順序進(jìn)行修訂。

以下是并行采樣與順序修訂的比較。并行采樣獨(dú)立生成N個(gè)答案,而順序修訂則是每個(gè)答案依賴于前一次生成的結(jié)果,逐步修訂。

圖片圖片

通過(guò)對(duì)這兩種策略的研究,團(tuán)隊(duì)發(fā)現(xiàn)不同方法的有效性高度依賴于prompt的難度。

圖片圖片

由此,團(tuán)隊(duì)提出了“計(jì)算最優(yōu)”擴(kuò)展策略,根據(jù)prompt難度自適應(yīng)地分配測(cè)試時(shí)的計(jì)算資源。

他們將問(wèn)題分為五個(gè)難度等級(jí)并為每個(gè)等級(jí)選擇最佳策略。

如下圖左側(cè),可以看到,在修訂場(chǎng)景中,標(biāo)準(zhǔn)的best-of-N方法(生成多個(gè)答案后,從中選出最優(yōu)的一個(gè))與計(jì)算最優(yōu)擴(kuò)展相比,它們之間的差距逐漸擴(kuò)大,使得計(jì)算最優(yōu)擴(kuò)展在使用少4倍的測(cè)試計(jì)算資源的情況下,能夠超越best-of-N方法。

同樣在PRM搜索環(huán)境中,計(jì)算最優(yōu)擴(kuò)展在初期相比best-of-N有顯著的提升,甚至在一些情況下,以少4倍的計(jì)算資源接近或超過(guò)best-of-N的表現(xiàn)。

圖片圖片

上圖右側(cè)比較了在測(cè)試階段進(jìn)行計(jì)算最優(yōu)擴(kuò)展的PaLM 2-S模型與不使用額外測(cè)試計(jì)算的預(yù)訓(xùn)練模型之間的表現(xiàn),后者是一個(gè)*大14倍的預(yù)訓(xùn)練模型。

研究人員考慮了在兩種模型中都預(yù)期會(huì)有?? tokens的預(yù)訓(xùn)練和?? tokens的推理。可以看到,在修訂場(chǎng)景中(右上),當(dāng)?? << ??時(shí),測(cè)試階段的計(jì)算通常優(yōu)于額外的預(yù)訓(xùn)練。

然而,隨著推理與預(yù)訓(xùn)練token比率的增加,在簡(jiǎn)單問(wèn)題上測(cè)試階段計(jì)算仍然是首選。而在較難的問(wèn)題上,預(yù)訓(xùn)練在這些情況下更為優(yōu)越,研究人員在PRM搜索場(chǎng)景中也觀察到了類似的趨勢(shì)。

研究還比較了測(cè)試時(shí)計(jì)算與增加預(yù)訓(xùn)練的效果,在計(jì)算量匹配的情況下,對(duì)簡(jiǎn)單和中等難度的問(wèn)題,額外的測(cè)試時(shí)計(jì)算通常優(yōu)于增加預(yù)訓(xùn)練。

而對(duì)于難度較大的問(wèn)題,增加預(yù)訓(xùn)練計(jì)算更為有效。

圖片圖片

總的來(lái)說(shuō),研究揭示了當(dāng)前的測(cè)試時(shí)計(jì)算擴(kuò)展方法可能無(wú)法完全替代預(yù)訓(xùn)練的擴(kuò)展,但已顯示出在某些情況下的優(yōu)勢(shì)。

引發(fā)網(wǎng)友熱議

這項(xiàng)研究被網(wǎng)友po出來(lái)后,引發(fā)熱議。

有網(wǎng)友甚至表示這解釋了OpenAI“草莓”模型的推理方法。

圖片圖片

為什么這么說(shuō)?

原來(lái)就在昨晚半夜,外媒The Information放出消息,爆料OpenAI新模型草莓計(jì)劃未來(lái)兩周內(nèi)發(fā)布,推理能力大幅提高,用戶輸入無(wú)需額外的提示詞。

草莓沒(méi)有一味追求Scaling Law,與其它模型的最大區(qū)別就是會(huì)在回答前進(jìn)行“思考”。

所以草莓響應(yīng)需要10-20秒。

圖片圖片

這位網(wǎng)友猜測(cè),草莓可能就是用了類似谷歌DeepMind這項(xiàng)研究的方法(doge):

如果你不認(rèn)同,給個(gè)替代推理方法解釋!

圖片圖片

解釋就解釋:

本文探討了 best-of-n 采樣和蒙特卡洛樹(shù)搜索(MCTS)。

草莓可能是一種具有特殊tokens(例如回溯、規(guī)劃等)的混合深度模型。它可能會(huì)通過(guò)人類數(shù)據(jù)標(biāo)注員和來(lái)自容易驗(yàn)證領(lǐng)域(如數(shù)學(xué)/編程)的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2408.03314

參考鏈接:
[1]https://x.com/deedydas/status/1833539735853449360
[2]https://x.com/rohanpaul_ai/status/1833648489898594815

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-05-13 15:13:28

AI模型訓(xùn)練

2025-02-21 13:20:00

2024-10-11 14:00:00

模型數(shù)據(jù)

2025-04-11 09:15:00

語(yǔ)言模型AI數(shù)據(jù)

2024-08-29 14:05:00

數(shù)據(jù)模型

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2024-07-23 10:20:57

2025-03-18 09:33:13

2024-11-11 17:35:11

2024-09-09 13:50:00

2024-10-18 14:46:51

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2019-06-10 00:45:01

谷歌開(kāi)源圖像識(shí)別

2024-12-10 07:00:00

大模型密度定律人工智能

2024-08-01 12:44:58

2024-04-07 13:21:23

谷歌小模型技術(shù)

2023-10-28 13:29:27

2023-12-13 12:55:39

模型數(shù)據(jù)

2022-03-14 10:53:12

谷歌模型研究

2024-09-18 11:30:00

AI架構(gòu)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)