自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

別讓大模型想太多了,過度思考會(huì)影響性能

發(fā)布于 2025-3-26 10:58
瀏覽
0收藏

加州大學(xué)伯克利分校、蘇黎世聯(lián)邦理工學(xué)院等多所高校的研究人員,深入剖析了大模型在執(zhí)行Agent任務(wù)時(shí)面臨的困境 ——過度思考。


為了量化這種行為,研究人員開發(fā)了一套系統(tǒng)評(píng)估框架,并通過4018條軌跡分析發(fā)現(xiàn),高推理努力配置的模型雖然解決了29.1%的問題,但成本高達(dá)1400美元;而低推理努力配置則以3.5倍更低的成本達(dá)到了21.0%的成功率。


此外,生成兩個(gè)低推理解決方案并選擇其中一個(gè)具有較低過度思考得分的方法,實(shí)現(xiàn)了27.3%的解決率,同時(shí)減少了43%的計(jì)算成本。這表明減輕過度思考不僅提高了推理效率,還顯著降低了成本。

別讓大模型想太多了,過度思考會(huì)影響性能-AI.x社區(qū)

開源地址:https://github.com/AlexCuadron/ThinkingAgent


過度思考是指,大模型過度依賴內(nèi)部推理,而忽視了從環(huán)境中獲取或整合關(guān)鍵反饋的傾向。即使在資源不受限制的情況下,這種過度依賴內(nèi)部推理的模型仍然會(huì)受到其不完整或不準(zhǔn)確的世界模型的限制,從而導(dǎo)致錯(cuò)誤的累積和決策能力的下降。


為了深入研究這種現(xiàn)象,研究人員通過分析智能體與環(huán)境之間的交互過程,識(shí)別出三種過度思考的典型表現(xiàn)模式。


首先是“分析癱瘓”(Analysis Paralysis),在這種情況下,模型過度專注于未來的規(guī)劃,而忽視了當(dāng)前環(huán)境中的實(shí)際進(jìn)展。它們會(huì)生成越來越復(fù)雜的行動(dòng)序列,但卻難以系統(tǒng)地執(zhí)行這些計(jì)劃,從而陷入無休止的規(guī)劃循環(huán)中。

別讓大模型想太多了,過度思考會(huì)影響性能-AI.x社區(qū)

其次是“魯莽行動(dòng)”(Rogue Actions),在這種模式下,模型在面對(duì)錯(cuò)誤時(shí)會(huì)嘗試同時(shí)執(zhí)行多個(gè)相互依賴的行動(dòng),而沒有等待環(huán)境對(duì)前一個(gè)行動(dòng)的反饋,模型試圖用內(nèi)部模擬來替代真實(shí)的環(huán)境反饋。


最后是“過早脫離”(Premature Disengagement),在這種情況下,模型基于內(nèi)部對(duì)問題空間的模擬而終止任務(wù),而不是根據(jù)環(huán)境反饋來驗(yàn)證解決方案的有效性。這種過度依賴內(nèi)部推理的行為可能導(dǎo)致模型在沒有驗(yàn)證的情況下就放棄任務(wù),或者錯(cuò)誤地認(rèn)為問題無法解決。


為了量化過度思考行為,研究團(tuán)隊(duì)開發(fā)了一種系統(tǒng)化的評(píng)分方法,使用大模型作為評(píng)判標(biāo)準(zhǔn)。該方法通過分析模型軌跡,識(shí)別出上述三種過度思考模式,并給出0到10分的評(píng)分,分?jǐn)?shù)越高表示過度思考越嚴(yán)重。每個(gè)評(píng)分都附有詳細(xì)的理由,解釋所識(shí)別的模式及其嚴(yán)重程度。完整的評(píng)估提示和評(píng)分標(biāo)準(zhǔn)可以在附錄A中找到。

別讓大模型想太多了,過度思考會(huì)影響性能-AI.x社區(qū)

為了驗(yàn)證自動(dòng)化評(píng)估方法的可靠性,研究人員邀請(qǐng)了四位專家手動(dòng)評(píng)定了20個(gè)隨機(jī)選擇的模型軌跡。通過標(biāo)準(zhǔn)化評(píng)分,研究團(tuán)隊(duì)進(jìn)行了全面的統(tǒng)計(jì)分析,探究過度思考行為與模型性能的關(guān)系,以及過度思考對(duì)推理模型和非推理模型的不同影響。


結(jié)果顯示,推理模型的過度思考得分顯著高于非推理模型,且兩者之間的相關(guān)性非常強(qiáng),證實(shí)了自動(dòng)評(píng)估方法的可靠性。


此外,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)系統(tǒng)化評(píng)估軌跡的提示,避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現(xiàn)形式展開,即分析癱瘓、魯莽行為和過早脫離,并強(qiáng)調(diào)偏好內(nèi)部推理鏈而非環(huán)境互動(dòng)。

別讓大模型想太多了,過度思考會(huì)影響性能-AI.x社區(qū)

評(píng)分系統(tǒng)分為三檔:0-3分表示適當(dāng)?shù)沫h(huán)境互動(dòng),4-7分表示偶爾過度依賴內(nèi)部推理,8-10分則表示完全脫離環(huán)境反饋。


通過提供具體的例子,如模型得0分時(shí)會(huì)持續(xù)重試類似配置并在每次嘗試間等待反饋,而得10分時(shí)會(huì)生成多個(gè)互依動(dòng)作而不等待環(huán)境響應(yīng),或基于內(nèi)部推理提前結(jié)束任務(wù),確保評(píng)分標(biāo)準(zhǔn)的透明和一致。


實(shí)驗(yàn)結(jié)果表明,過度思考評(píng)分與任務(wù)解決率呈現(xiàn)出顯著的負(fù)相關(guān)性。推理模型的過度思考評(píng)分越高,其在軟件工程任務(wù)中的表現(xiàn)越差。這一趨勢(shì)在非推理模型中也得到了體現(xiàn),但其下降速度更快。例如,推理模型的趨勢(shì)線斜率為-7.894,而非推理模型的趨勢(shì)線斜率達(dá)到了-15.938。


在模型類型與過度思考的關(guān)系方面,作者們發(fā)現(xiàn)推理模型的過度思考傾向明顯高于非推理模型。實(shí)驗(yàn)數(shù)據(jù)顯示,推理模型的平均過度思考評(píng)分為3.505,而非推理模型的平均評(píng)分為2.228。這種傾向可能是由于推理模型在訓(xùn)練過程中被優(yōu)化為生成更長(zhǎng)的推理鏈,從而在面對(duì)需要頻繁與環(huán)境互動(dòng)的任務(wù)時(shí),表現(xiàn)出更高的過度思考傾向。


此外,還研究了模型規(guī)模對(duì)過度思考的影響。實(shí)驗(yàn)結(jié)果表明,模型規(guī)模與過度思考評(píng)分之間存在負(fù)相關(guān)性。較小的模型,如7B和14B參數(shù)的模型在交互式任務(wù)中表現(xiàn)出更高的過度思考傾向,而較大的模型如671B參數(shù)的模型則相對(duì)較低。這一現(xiàn)象可能與模型的復(fù)雜性和對(duì)環(huán)境反饋的處理能力有關(guān)。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦