自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

o1也會(huì)「想太多」?騰訊AI Lab與上海交大揭秘o1模型過(guò)度思考問(wèn)題

人工智能 新聞
這篇論文聚焦于 o1 類推理模型面臨的一個(gè)核心挑戰(zhàn):如何合理控制推理過(guò)程中的計(jì)算量,提升思考效率。

本文的共同通訊作者為涂兆鵬和王瑞,涂兆鵬為騰訊專家研究員,研究方向?yàn)樯疃葘W(xué)習(xí)和大模型,在國(guó)際頂級(jí)期刊和會(huì)議上發(fā)表學(xué)術(shù)論文一百余篇,引用超過(guò)9000次。擔(dān)任SCI期刊NeuroComputing副主編,多次擔(dān)任ACL、EMNLP、ICLR等國(guó)際頂級(jí)會(huì)議領(lǐng)域主席。王瑞為上海交通大學(xué)副教授,研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。共同第一作者為上海交通大學(xué)博士生陳星宇、何志威,騰訊AI Lab高級(jí)研究員徐嘉豪、梁添。

本文將介紹首個(gè)關(guān)于 o1 類長(zhǎng)思維鏈模型過(guò)度思考現(xiàn)象。該工作由騰訊 AI Lab 與上海交通大學(xué)團(tuán)隊(duì)共同完成。

圖片

  • 論文題目:Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
  • 論文地址:https://arxiv.org/pdf/2412.21187

背景與動(dòng)機(jī)

自 OpenAI 發(fā)布 o1 模型以來(lái),它超強(qiáng)的邏輯推理以及難題解決能力就引發(fā)了廣泛關(guān)注。o1 模型通過(guò)模擬人類的深度思考過(guò)程,在思維鏈中運(yùn)用如自我反思、糾錯(cuò)以及探索多種解法等推理策略,展現(xiàn)了強(qiáng)大的長(zhǎng)時(shí)間推理(Inference-Time Scaling)性能。依靠這種機(jī)制,o1 模型能夠不斷優(yōu)化自身的答案質(zhì)量。然而,在 o1 成功的光環(huán)下,一個(gè)潛在問(wèn)題逐漸被放大 —— 過(guò)度思考。

隨著 o1 模型的問(wèn)世,許多類似的模型也陸續(xù)出現(xiàn),比如 Qwen 團(tuán)隊(duì)開(kāi)源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。這些模型在推理時(shí)同樣具備 “深度思考” 的特性,但也暴露出了類似的問(wèn)題:在不必要的情況下生成過(guò)長(zhǎng)的思維鏈反而浪費(fèi)了計(jì)算資源。舉一個(gè)簡(jiǎn)單的例子,對(duì)于問(wèn)題 “2+3=?”,不同模型的回答長(zhǎng)度如下圖所示:

圖片

傳統(tǒng)模型的回答通常只需要極少的 token 就能給出答案,然而對(duì)于 o1 模型,其消耗的推理 token 直接達(dá)到了 200 以上。更極端的是,Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至達(dá)到了 900!為什么 QwQ 模型會(huì)產(chǎn)生如此之長(zhǎng)的輸出?研究團(tuán)隊(duì)進(jìn)一步分析了 QwQ 對(duì)這個(gè)問(wèn)題的答案,結(jié)果見(jiàn)下圖右欄:

圖片

QwQ-32B-Preview 模型會(huì)在推理過(guò)程中嘗試多種不同的解題策略。對(duì)于簡(jiǎn)單的加法問(wèn)題,模型探索了直接使用數(shù)學(xué)計(jì)算、數(shù)軸移動(dòng)模擬,以及類比數(shù)蘋(píng)果等方法,經(jīng)歷了多輪推理后才最終確定結(jié)果。盡管這種思維鏈策略對(duì)于復(fù)雜問(wèn)題的解答非常有幫助,但在應(yīng)對(duì)簡(jiǎn)單問(wèn)題時(shí),反復(fù)驗(yàn)證已有的答案和進(jìn)行過(guò)于寬泛的探索顯然是一種計(jì)算資源的浪費(fèi)。為了更好地研究這個(gè)問(wèn)題,研究團(tuán)隊(duì)對(duì)這類 o1 模型的過(guò)度思考現(xiàn)象進(jìn)行了更細(xì)致的定義和深入分析。

過(guò)度思考現(xiàn)象

文章首先定義了模型回復(fù)中的獨(dú)立解答(Solution):每當(dāng)模型完整地得到一次對(duì)輸入問(wèn)題的答案(無(wú)論對(duì)錯(cuò)),這就被認(rèn)為是一個(gè)獨(dú)立解答。如例子所示,每一個(gè)解答都包含了答案 “5”。基于這個(gè)定義,研究人員在三個(gè)不同的數(shù)據(jù)集上統(tǒng)計(jì)了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答數(shù)量分布(解答的判斷和抽取由 Llama-3.3-70B 模型完成):

圖片

其中,ASDIV [3] 是一個(gè)包含小學(xué)難度數(shù)學(xué)題的測(cè)試集,GSM8K [4] 是常用的初級(jí)難度數(shù)學(xué)題測(cè)試集,MATH500 [5] 是高中數(shù)學(xué)競(jìng)賽難度的測(cè)試集。如圖所示,無(wú)論是對(duì)于 QwQ 模型還是 R1 模型,包含 2-4 個(gè)解答的樣本占了所有樣本的 70% 以上,可見(jiàn)這種 Solution-Level 的反思行為在當(dāng)前的類 o1 模型中十分普遍。那么這些解答本身是否都是必須的呢?下圖展示了在不同數(shù)據(jù)集上,模型首次得到正確答案的解答位置:

圖片

令人驚訝的是,對(duì) QwQ 模型和 R1 模型的實(shí)驗(yàn)分析顯示,它們?cè)诔?nbsp;90% 的情況下,都能在第一次嘗試中就成功輸出正確答案。也就是說(shuō),后續(xù)多輪思考對(duì)答案正確率的提升幾乎沒(méi)有實(shí)質(zhì)性貢獻(xiàn)。這一現(xiàn)象進(jìn)一步驗(yàn)證了此前對(duì)模型過(guò)度思考的觀察:絕大多數(shù)情況下,模型的多輪反思可能只是在反復(fù)驗(yàn)證已有的答案,從而造成了資源浪費(fèi)。

然而,這種現(xiàn)象也引發(fā)了不同觀點(diǎn)的爭(zhēng)論。一些研究者認(rèn)為,o1 類模型的一個(gè)核心特性在于其能夠自主探索問(wèn)題的不同解法。從這一角度來(lái)看,如果模型在推理過(guò)程中使用了多種不同的思路來(lái)解決問(wèn)題,那么這種多樣化的探索不僅有助于加深模型對(duì)問(wèn)題的理解,還體現(xiàn)了模型的自主探索能力,不應(yīng)簡(jiǎn)單地視為 “過(guò)度思考”。為了更深入地剖析這一問(wèn)題,研究團(tuán)隊(duì)進(jìn)一步提出了一種分析方法。他們利用 GPT-4o 對(duì)模型的回答進(jìn)行分類,具體包括以下步驟:  

  1. 推理策略分類:對(duì)每一個(gè)解答進(jìn)行推理策略的標(biāo)注,將采用相同推理方式的回答歸為同一類。例如,對(duì)于 “2+3=?” 這樣的問(wèn)題,可能涉及的推理策略包括數(shù)學(xué)運(yùn)算模擬、數(shù)軸移動(dòng)和實(shí)物類比等。  
  2. 多樣性分析:在歸類的基礎(chǔ)上,分析并統(tǒng)計(jì)不同解答之間的推理策略多樣性。 

通過(guò)這一方法,研究者能夠量化推理過(guò)程中是否存在真正意義上的 “多樣化探索”。這種分析為我們提供了衡量模型行為的一種新視角:當(dāng)模型的不同解答策略高度相似甚至重復(fù)時(shí),可以說(shuō)明多輪推理的貢獻(xiàn)是有限的;而當(dāng)推理策略的多樣性伴隨著思考層次的提升而增加時(shí),則反映了模型對(duì)問(wèn)題理解的進(jìn)一步加深。這種視角能夠幫助我們更準(zhǔn)確地區(qū)分 “有效的自主探索” 和 “低效的重復(fù)推理”。如下圖所示:

圖片

圖中展示了每個(gè)位置的解答引入新推理思路的可能性。第一個(gè)位置的解答總會(huì)是 “新的思路”,因此其概率為 100%。但隨著推理位置的后移,解答中帶來(lái)新推理思路的可能性逐漸降低。這一趨勢(shì)表明,越到后續(xù)位置,模型越傾向于重復(fù)先前的推理思路,從而導(dǎo)致其推理行為變得冗余且低效。從這個(gè)角度來(lái)看,模型的后續(xù)解答更多是一種無(wú)效的重復(fù)思考。

通過(guò)上述分析,我們可以發(fā)現(xiàn)這些過(guò)度思考所產(chǎn)生的解答往往具備以下兩個(gè)關(guān)鍵特征:  

  1. 新解答對(duì)答案的正確性沒(méi)有貢獻(xiàn):模型往往在一開(kāi)始就已經(jīng)成功得出正確答案,后續(xù)的多輪反復(fù)檢驗(yàn)是多余且不必要的。  
  2. 新解答未能引入實(shí)質(zhì)性新思路:模型后續(xù)的解答僅以不同的表述方式重復(fù)了早先已有的結(jié)論,而沒(méi)有真正擴(kuò)展推理的深度或視角。  

過(guò)度思考指標(biāo)

基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)一步定義了兩個(gè)衡量模型 “過(guò)度思考” 現(xiàn)象的核心指標(biāo):

1. 產(chǎn)出效率(Outcome Efficiency):用于衡量模型回復(fù)中每一個(gè)解答對(duì)最終答案的貢獻(xiàn),等于正確解答中的 token 數(shù)除以完整回復(fù)的總 token 數(shù)。計(jì)算公式為:

圖片

其中,N 為樣本數(shù),圖片為模型第 i 個(gè)樣本的回復(fù)中第一個(gè)正確解答的 token 數(shù)目,圖片為第i個(gè)樣本的整個(gè)回復(fù)的 token 數(shù)量,圖片代表第i個(gè)樣本是否正確。直觀地看,一個(gè)模型得到正確解答之后進(jìn)行反思的輪數(shù)越少,正確解答在整個(gè)回復(fù)中的占比就越大,產(chǎn)出效率就越高。

2. 過(guò)程效率(Process Efficiency):用于衡量模型回復(fù)中每一個(gè)解答對(duì)推理策略多樣性的貢獻(xiàn),等于回復(fù)中屬于不同思路的總 token 數(shù)目除以整個(gè)回復(fù)的 token 數(shù)目,計(jì)算公式為:

圖片

其中 N 為樣本數(shù),圖片為第i個(gè)樣本的整個(gè)回復(fù) token 數(shù)量,圖片為第i個(gè)樣本中所有屬于不同推理策略的 token 總數(shù)。該指標(biāo)衡量的是模型進(jìn)行多輪反思的有效性,回答中涉及的不同的推理策略越多,圖片就會(huì)越大,那么過(guò)程效率就會(huì)越高。

基于這兩個(gè)指標(biāo),研究者們統(tǒng)計(jì)了 QwQ 模型和 R1 模型在 MATH500 數(shù)據(jù)集上的效率指標(biāo)表現(xiàn):

圖片

從圖中可以觀察到,R1 模型在效率上略優(yōu)于 QwQ 模型,但兩個(gè)模型都不同程度地暴露出 “過(guò)度思考” 的問(wèn)題。對(duì)于難度最低的等級(jí) 1 問(wèn)題,研究者發(fā)現(xiàn)兩個(gè)模型的表現(xiàn)都有如下特點(diǎn):  

  1. 產(chǎn)出效率不足一半:兩個(gè)模型在這種簡(jiǎn)單任務(wù)上的產(chǎn)出效率均未超過(guò) 50%,意味著模型在取得正確答案后,依然生成了超過(guò)必要推理步驟至少一倍的額外推理內(nèi)容。這符合上文的研究發(fā)現(xiàn):正確答案通常在推理的較早階段得到,但模型的后續(xù)行為中存在大量冗余推理。  
  2. 思考過(guò)程效率較低:模型的整體過(guò)程效率只有 70% 左右,這意味著約 30% 的思考步驟是在重復(fù)無(wú)效的推理。這種重復(fù)的行為不僅未能提升正確率,也沒(méi)有引入新的解題思路,從而造成了計(jì)算資源的浪費(fèi)。

從以上分析可見(jiàn),現(xiàn)有的 o1 類模型都普遍存在不同程度的 “過(guò)度思考” 現(xiàn)象,且這一問(wèn)題在應(yīng)對(duì)簡(jiǎn)單任務(wù)時(shí)尤為嚴(yán)重。這些現(xiàn)象突顯了當(dāng)前 o1 類模型推理機(jī)制中的不足,也意味著在模型的長(zhǎng)思維鏈優(yōu)化和推理資源分配方面仍有較大的改進(jìn)空間。為此,研究者們提出了幾種方法,旨在緩解模型的過(guò)度思考現(xiàn)象,提升推理效率。

緩解過(guò)度思考

由于目標(biāo)是減少模型的過(guò)度思考但不損害模型的推理能力,因此最直接的想法就是通過(guò)偏好優(yōu)化算法來(lái)鼓勵(lì)模型生成更精簡(jiǎn)的回復(fù)。研究者們使用開(kāi)源的 Qwen-QwQ-32B-Preview 模型作為實(shí)驗(yàn)的基座模型,基于該模型在 PRM12K [10] 的數(shù)據(jù)集上的多次采樣結(jié)果,選擇最長(zhǎng)的模型回復(fù)作為偏好優(yōu)化的負(fù)樣本,而對(duì)于正樣本的選擇,有如下幾種策略:

  • 最短回復(fù)(Shortest Response):使用模型采樣結(jié)果中最短的生成結(jié)果作為正樣本。
  • 首個(gè)正確回答(First-Correct Solutions, FCS):使用模型采樣結(jié)果中最短的首次得到正確答案的解答作為正樣本,拋棄所有后續(xù)的思考。
  • 首個(gè)正確回答 + 驗(yàn)算(FCS+Reflection):由于絕大多數(shù)的采樣結(jié)果都是在第一個(gè)解答中就出現(xiàn)了正確答案,僅保留首個(gè)正確回答可能會(huì)使得模型退化,因此研究者們?cè)诘谝淮蔚玫秸_答案后,額外保留了一輪反思的內(nèi)容。
  • 最多樣回復(fù)(Greedily Diverse Solutions,GDS):除了單純地對(duì)長(zhǎng)度進(jìn)行控制,另一個(gè)優(yōu)化思路是盡可能保留更多樣化的思考軌跡,因此研究者們?cè)?FCS 方法的基礎(chǔ)上,盡可能多地保留了包含不同推理策略的解答。

基于以上幾種偏好數(shù)據(jù),研究者們嘗試了最基礎(chǔ)的 SFT 以及多種偏好優(yōu)化算法,如 DPO [6],RPO [7][8] 以及 SimPO [8]。實(shí)驗(yàn)結(jié)果如下:

圖片

表格中的 SFT 方法是指僅使用正樣本進(jìn)行微調(diào)。從表格中可以看出,在同樣的 “最短回復(fù)” 設(shè)置下,SimPO 有著最好的優(yōu)化效果,而基于 SimPO 的進(jìn)一步實(shí)驗(yàn)表明,使用首個(gè)正確回答 + 驗(yàn)算作為正樣本的策略能夠很好地取得效率和性能的平衡,能夠在保持模型性能的同時(shí)大幅度地減少輸出的 token 數(shù)目以及平均解答輪數(shù),并有效地提高產(chǎn)出效率和過(guò)程效率。為了進(jìn)一步分析方法的有效性,研究者們分析了 MATH500 測(cè)試集的不同難度下 SimPO+FCS+Reflection 方法的表現(xiàn),如下圖所示:

圖片

有意思是,文中提出的方法在最簡(jiǎn)單的難度 1 的問(wèn)題上,僅使用了相比于原來(lái) 63.6% 的 token 數(shù)目便達(dá)到了 100% 的正確率,而且在難題(難度 4 和 5)上,文中的方法能夠在提升性能的同時(shí)大幅度減少輸出的冗余,這展示了提出的方法在減緩過(guò)度思考上的有效性。

總結(jié)

這篇論文聚焦于 o1 類推理模型面臨的一個(gè)核心挑戰(zhàn):如何合理控制推理過(guò)程中的計(jì)算量,提升思考效率。文章通過(guò)分析實(shí)驗(yàn)揭示了一個(gè)普遍問(wèn)題 ——o1 類模型在處理簡(jiǎn)單問(wèn)題時(shí)容易陷入過(guò)度思考,從而增加了不必要的計(jì)算消耗?;趯?duì)此現(xiàn)象的詳細(xì)分析,研究者提出了一系列有效的優(yōu)化方法,能夠在保持模型性能的同時(shí),大幅減少冗余推理,提升推理效率。這些方法的實(shí)驗(yàn)結(jié)果表明,它們顯著優(yōu)化了模型在簡(jiǎn)單任務(wù)上的資源利用情況,為實(shí)現(xiàn) “高效思考” 的目標(biāo)邁出了重要一步。未來(lái)的研究將重點(diǎn)探索以下方向:

  1. 自適應(yīng)調(diào)控策略:開(kāi)發(fā)讓模型根據(jù)問(wèn)題復(fù)雜程度動(dòng)態(tài)調(diào)整推理深度的機(jī)制,更智能地分配計(jì)算資源;
  2. 更精細(xì)的效率評(píng)估指標(biāo):設(shè)計(jì)能夠覆蓋更廣泛推理軌跡的指標(biāo),從而更全面地評(píng)估模型的思考效率。

這項(xiàng)研究不僅提升了 o1 類模型的推理,同時(shí)也為未來(lái)更高效、更智能的推理機(jī)制提供了重要的理論基礎(chǔ)與實(shí)踐參考。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-09-24 11:01:03

2025-01-20 09:28:00

AI工具模型

2024-11-07 15:40:00

2024-09-13 10:06:21

2024-12-09 11:06:31

2024-09-18 09:17:00

OpenAI模型開(kāi)源

2024-10-05 00:00:00

2024-12-16 16:05:34

2025-02-18 00:04:00

DeepSeek模型ChatGPT

2024-12-05 10:16:14

2024-11-25 17:23:10

2024-10-30 14:25:00

GitHub模型

2024-11-05 14:20:00

AI模型

2024-11-25 08:30:00

2025-02-03 14:17:27

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-07 13:16:26

2024-10-09 13:42:29

2024-11-29 13:57:38

2024-12-06 11:44:48

Pro模式AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)