自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI將在兩周內(nèi)發(fā)布“草莓”模型,推理模式非常特殊!

發(fā)布于 2024-9-11 10:36
瀏覽
0收藏

Theinformation消息,OpenAI將在未來(lái)兩周內(nèi)發(fā)布最新模型“草莓”( Strawberry) ,會(huì)為ChatGPT等產(chǎn)品提供技術(shù)支持。


據(jù)測(cè)試過(guò)該模型的人員透露,草莓模型的推理模式非常特殊,可以像人類一樣在提供響應(yīng)之前進(jìn)行擬人化思考,用10—20秒的時(shí)間進(jìn)行信息搜索、評(píng)估,更高效的利用現(xiàn)有AI算力提供更準(zhǔn)確的內(nèi)容。

OpenAI將在兩周內(nèi)發(fā)布“草莓”模型,推理模式非常特殊!-AI.x社區(qū)

其實(shí),草莓的這種特殊的推理模式,谷歌DeepMind就專門(mén)出過(guò)一篇論文進(jìn)行過(guò)類似的技術(shù)介紹。


目前,多數(shù)大模型的性能受限于其預(yù)訓(xùn)練階段所獲取的數(shù)據(jù)集,以及推理過(guò)程中的算力資源。研究人員發(fā)現(xiàn),可以通過(guò)更多的推理時(shí)間、自適應(yīng)(就是草莓的特殊延遲推理)來(lái)提升模型的性能,這種技術(shù)稱為——測(cè)試時(shí)計(jì)算(Test-time computation)。


根據(jù)提示的難度不同,優(yōu)化方法主要有兩種:一種是基于密集型、流程導(dǎo)向的驗(yàn)證獎(jiǎng)勵(lì)模型進(jìn)行搜索;另一種是在給定提示下,自適應(yīng)地更新模型對(duì)響應(yīng)的概率分布。

OpenAI將在兩周內(nèi)發(fā)布“草莓”模型,推理模式非常特殊!-AI.x社區(qū)

密集型、流程導(dǎo)向的驗(yàn)證獎(jiǎng)勵(lì)模型搜索主要通過(guò)引入一個(gè)能夠評(píng)估模型生成答案步驟正確性的過(guò)程導(dǎo)向的驗(yàn)證獎(jiǎng)勵(lì)模型(PRM),來(lái)指導(dǎo)搜索過(guò)程。


這意味著,模型不僅需要生成最終的答案,還需要生成一個(gè)能夠證明答案正確性的步驟序列。通過(guò)這種方式,驗(yàn)證模型可以針對(duì)每一步驟給出反饋,從而引導(dǎo)模型在生成過(guò)程中不斷修正自己的路徑找到最優(yōu)解。


這種方法很適用于那些需要多步推理和驗(yàn)證的任務(wù),例如,數(shù)學(xué)問(wèn)題解決或者是邏輯推理題。在推理的過(guò)程中,模型會(huì)不斷地評(píng)估不同的解決方案,并選擇那些能夠獲得更高獎(jiǎng)勵(lì)分?jǐn)?shù)的路徑繼續(xù)探索下去,直到找到最有可能正確的答案為止。

OpenAI將在兩周內(nèi)發(fā)布“草莓”模型,推理模式非常特殊!-AI.x社區(qū)

第二種自適應(yīng)更新模型對(duì)響應(yīng)的概率分布,則是在生成回答時(shí),可以根據(jù)先前生成的內(nèi)容來(lái)動(dòng)態(tài)調(diào)整后續(xù)生成的內(nèi)容。


例如,當(dāng)模型接收到一個(gè)提示后,它并不會(huì)立即給出最終的回答,而是會(huì)先生成一系列可能的響應(yīng)選項(xiàng)。然后,模型會(huì)根據(jù)這些選項(xiàng)的質(zhì)量以及它們與原始提示的相關(guān)性來(lái)更新自己的概率分布,這樣在下一輪生成時(shí),模型就會(huì)傾向于選擇那些更正確的選項(xiàng)。


通過(guò)多次迭代,模型能夠逐漸優(yōu)化其生成的回答,直到達(dá)到一個(gè)滿意的程度。這種方法非常適合用于那些初始提示本身可能包含模糊信息的情況,或者當(dāng)模型首次嘗試生成的回答并不完全準(zhǔn)確時(shí),通過(guò)不斷的修訂來(lái)提高最終輸出的質(zhì)量。


這兩種優(yōu)化機(jī)制的使用,在很大程度上取決于問(wèn)題本身的性質(zhì)以及所使用的基線大模型的特點(diǎn)。例如,在處理相對(duì)簡(jiǎn)單的問(wèn)題時(shí),如果基礎(chǔ)模型已經(jīng)有足夠的能力生成合理的初步答案,那么允許模型通過(guò)預(yù)測(cè)一系列的修訂來(lái)迭代地改進(jìn)其初始答案,可能會(huì)比同時(shí)生成多個(gè)獨(dú)立的答案更為有效。

OpenAI將在兩周內(nèi)發(fā)布“草莓”模型,推理模式非常特殊!-AI.x社區(qū)

相反,對(duì)于那些需要考慮多種高級(jí)解決方案的問(wèn)題,或者當(dāng)模型面臨的是特別困難的任務(wù)時(shí),采用平行重新采樣新答案或運(yùn)用樹(shù)狀搜索配合過(guò)程導(dǎo)向的獎(jiǎng)勵(lì)模型,可能是更高效的方法。


所以,為了更高效的使用這兩種優(yōu)化方法,研究人員提出了“計(jì)算最優(yōu)”的策略,可以根據(jù)每個(gè)提示的具體情況來(lái)選擇最適合的測(cè)試時(shí)計(jì)算方法,從而最有效地利用額外的計(jì)算資源。

這種方法使得測(cè)試時(shí)計(jì)算的效率提高了超過(guò)4倍,相比于傳統(tǒng)的最佳N選一的基線策略表現(xiàn)更為出色。


本文轉(zhuǎn)自  AIGC開(kāi)放社區(qū) ,作者: AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Y22cC5RXsC9UBTcRYKzF1A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦