自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="tefx3"></sub>}

<cite id="tefx3"></cite>

<cite id="tefx3"><rp id="tefx3"><form id="tefx3"></form></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

小模型越級(jí)挑戰(zhàn)14倍參數(shù)大模型，谷歌開(kāi)啟Test-Time端新的Scaling Law

2024-09-11 12:31:59

PRM可以在模型生成答案過(guò)程中的每個(gè)步驟都提供評(píng)分，用于引導(dǎo)搜索算法，動(dòng)態(tài)調(diào)整搜索策略，通過(guò)在生成過(guò)程中識(shí)別錯(cuò)誤或低效的路徑，幫助避免在這些路徑上浪費(fèi)計(jì)算資源。

不必增加模型參數(shù)，計(jì)算資源相同，小模型性能超過(guò)比它大14倍的模型！

谷歌DeepMind最新研究引發(fā)熱議，甚至有人表示這可能就是OpenAI即將發(fā)布的新模型草莓所用的方法。

圖片

研究團(tuán)隊(duì)探究了在大模型推理時(shí)進(jìn)行計(jì)算優(yōu)化的方法，根據(jù)給定的prompt難度，動(dòng)態(tài)地分配測(cè)試時(shí)（Test-Time）的計(jì)算資源。

結(jié)果發(fā)現(xiàn)這種方法在一些情況下比單純擴(kuò)展模型參數(shù)更經(jīng)濟(jì)有效。

圖片

換句話說(shuō)，在預(yù)訓(xùn)練階段花費(fèi)更少的計(jì)算資源，而在推理階段花費(fèi)更多，這種策略可能更好。

推理時(shí)用額外計(jì)算來(lái)改進(jìn)輸出

這項(xiàng)研究的核心問(wèn)題是——

在一定計(jì)算預(yù)算內(nèi)解決prompt問(wèn)題，不同的計(jì)算策略對(duì)于不同問(wèn)題的有效性有顯著差異。我們應(yīng)如何評(píng)估并選擇最適合當(dāng)前問(wèn)題的測(cè)試時(shí)計(jì)算策略？這種策略與僅僅使用一個(gè)更大的預(yù)訓(xùn)練模型相比，效果如何？

圖片

DeepMind研究團(tuán)隊(duì)探究了兩種主要機(jī)制來(lái)擴(kuò)展測(cè)試時(shí)的計(jì)算。

一種是針對(duì)基于過(guò)程的密集驗(yàn)證器獎(jiǎng)勵(lì)模型（PRM）進(jìn)行搜索。

PRM可以在模型生成答案過(guò)程中的每個(gè)步驟都提供評(píng)分，用于引導(dǎo)搜索算法，動(dòng)態(tài)調(diào)整搜索策略，通過(guò)在生成過(guò)程中識(shí)別錯(cuò)誤或低效的路徑，幫助避免在這些路徑上浪費(fèi)計(jì)算資源。

另一種方法是在測(cè)試時(shí)根據(jù)prompt自適應(yīng)地更新模型的響應(yīng)分布。

模型不是一次性生成最終答案，而是逐步修改和改進(jìn)它之前生成的答案，按順序進(jìn)行修訂。

以下是并行采樣與順序修訂的比較。并行采樣獨(dú)立生成N個(gè)答案，而順序修訂則是每個(gè)答案依賴于前一次生成的結(jié)果，逐步修訂。

圖片

通過(guò)對(duì)這兩種策略的研究，團(tuán)隊(duì)發(fā)現(xiàn)不同方法的有效性高度依賴于prompt的難度。

圖片

由此，團(tuán)隊(duì)提出了“計(jì)算最優(yōu)”擴(kuò)展策略，根據(jù)prompt難度自適應(yīng)地分配測(cè)試時(shí)的計(jì)算資源。

他們將問(wèn)題分為五個(gè)難度等級(jí)并為每個(gè)等級(jí)選擇最佳策略。

如下圖左側(cè)，可以看到，在修訂場(chǎng)景中，標(biāo)準(zhǔn)的best-of-N方法（生成多個(gè)答案后，從中選出最優(yōu)的一個(gè)）與計(jì)算最優(yōu)擴(kuò)展相比，它們之間的差距逐漸擴(kuò)大，使得計(jì)算最優(yōu)擴(kuò)展在使用少4倍的測(cè)試計(jì)算資源的情況下，能夠超越best-of-N方法。

同樣在PRM搜索環(huán)境中，計(jì)算最優(yōu)擴(kuò)展在初期相比best-of-N有顯著的提升，甚至在一些情況下，以少4倍的計(jì)算資源接近或超過(guò)best-of-N的表現(xiàn)。

圖片

上圖右側(cè)比較了在測(cè)試階段進(jìn)行計(jì)算最優(yōu)擴(kuò)展的PaLM 2-S模型與不使用額外測(cè)試計(jì)算的預(yù)訓(xùn)練模型之間的表現(xiàn)，后者是一個(gè)*大14倍的預(yù)訓(xùn)練模型。

研究人員考慮了在兩種模型中都預(yù)期會(huì)有?? tokens的預(yù)訓(xùn)練和?? tokens的推理。可以看到，在修訂場(chǎng)景中（右上），當(dāng)?? << ??時(shí)，測(cè)試階段的計(jì)算通常優(yōu)于額外的預(yù)訓(xùn)練。

然而，隨著推理與預(yù)訓(xùn)練token比率的增加，在簡(jiǎn)單問(wèn)題上測(cè)試階段計(jì)算仍然是首選。而在較難的問(wèn)題上，預(yù)訓(xùn)練在這些情況下更為優(yōu)越，研究人員在PRM搜索場(chǎng)景中也觀察到了類似的趨勢(shì)。

研究還比較了測(cè)試時(shí)計(jì)算與增加預(yù)訓(xùn)練的效果，在計(jì)算量匹配的情況下，對(duì)簡(jiǎn)單和中等難度的問(wèn)題，額外的測(cè)試時(shí)計(jì)算通常優(yōu)于增加預(yù)訓(xùn)練。

而對(duì)于難度較大的問(wèn)題，增加預(yù)訓(xùn)練計(jì)算更為有效。

圖片

總的來(lái)說(shuō)，研究揭示了當(dāng)前的測(cè)試時(shí)計(jì)算擴(kuò)展方法可能無(wú)法完全替代預(yù)訓(xùn)練的擴(kuò)展，但已顯示出在某些情況下的優(yōu)勢(shì)。

引發(fā)網(wǎng)友熱議

這項(xiàng)研究被網(wǎng)友po出來(lái)后，引發(fā)熱議。

有網(wǎng)友甚至表示這解釋了OpenAI“草莓”模型的推理方法。

圖片

為什么這么說(shuō)？

原來(lái)就在昨晚半夜，外媒The Information放出消息，爆料OpenAI新模型草莓計(jì)劃未來(lái)兩周內(nèi)發(fā)布，推理能力大幅提高，用戶輸入無(wú)需額外的提示詞。

草莓沒(méi)有一味追求Scaling Law，與其它模型的最大區(qū)別就是會(huì)在回答前進(jìn)行“思考”。

所以草莓響應(yīng)需要10-20秒。

圖片

這位網(wǎng)友猜測(cè)，草莓可能就是用了類似谷歌DeepMind這項(xiàng)研究的方法（doge）：

如果你不認(rèn)同，給個(gè)替代推理方法解釋！

圖片

解釋就解釋：

本文探討了 best-of-n 采樣和蒙特卡洛樹(shù)搜索（MCTS）。

草莓可能是一種具有特殊tokens（例如回溯、規(guī)劃等）的混合深度模型。它可能會(huì)通過(guò)人類數(shù)據(jù)標(biāo)注員和來(lái)自容易驗(yàn)證領(lǐng)域（如數(shù)學(xué)/編程）的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。

圖片

論文鏈接：https://arxiv.org/pdf/2408.03314

參考鏈接：
[1]https://x.com/deedydas/status/1833539735853449360
[2]https://x.com/rohanpaul_ai/status/1833648489898594815

責(zé)任編輯：武曉燕來(lái)源：量子位

大模型谷歌策略

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="dcd9p"><p id="dcd9p"></p></sub>

<sup id="dcd9p"></sup>