自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="p0nmb"><rp id="p0nmb"><form id="p0nmb"></form></rp></cite>

<pre id="p0nmb"><cite id="p0nmb"></cite></pre>

<cite id="p0nmb"><rp id="p0nmb"><form id="p0nmb"></form></rp></cite>

<cite id="p0nmb"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

o1也會(huì)「想太多」？騰訊AI Lab與上海交大揭秘o1模型過(guò)度思考問(wèn)題

作者：機(jī)器之心 2025-01-08 13:08:55

人工智能新聞

這篇論文聚焦于 o1 類推理模型面臨的一個(gè)核心挑戰(zhàn)：如何合理控制推理過(guò)程中的計(jì)算量，提升思考效率。

本文的共同通訊作者為涂兆鵬和王瑞，涂兆鵬為騰訊專家研究員，研究方向?yàn)樯疃葘W(xué)習(xí)和大模型，在國(guó)際頂級(jí)期刊和會(huì)議上發(fā)表學(xué)術(shù)論文一百余篇，引用超過(guò)9000次。擔(dān)任SCI期刊NeuroComputing副主編，多次擔(dān)任ACL、EMNLP、ICLR等國(guó)際頂級(jí)會(huì)議領(lǐng)域主席。王瑞為上海交通大學(xué)副教授，研究方向?yàn)橛?jì)算語(yǔ)言學(xué)。共同第一作者為上海交通大學(xué)博士生陳星宇、何志威，騰訊AI Lab高級(jí)研究員徐嘉豪、梁添。

本文將介紹首個(gè)關(guān)于 o1 類長(zhǎng)思維鏈模型過(guò)度思考現(xiàn)象。該工作由騰訊 AI Lab 與上海交通大學(xué)團(tuán)隊(duì)共同完成。

論文題目：Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs
論文地址：https://arxiv.org/pdf/2412.21187

背景與動(dòng)機(jī)

自 OpenAI 發(fā)布 o1 模型以來(lái)，它超強(qiáng)的邏輯推理以及難題解決能力就引發(fā)了廣泛關(guān)注。o1 模型通過(guò)模擬人類的深度思考過(guò)程，在思維鏈中運(yùn)用如自我反思、糾錯(cuò)以及探索多種解法等推理策略，展現(xiàn)了強(qiáng)大的長(zhǎng)時(shí)間推理（Inference-Time Scaling）性能。依靠這種機(jī)制，o1 模型能夠不斷優(yōu)化自身的答案質(zhì)量。然而，在 o1 成功的光環(huán)下，一個(gè)潛在問(wèn)題逐漸被放大 —— 過(guò)度思考。

隨著 o1 模型的問(wèn)世，許多類似的模型也陸續(xù)出現(xiàn)，比如 Qwen 團(tuán)隊(duì)開(kāi)源的 QwQ-32B-Preview [1] 以及 Deepseek 推出的 R1-Preview [2] 模型。這些模型在推理時(shí)同樣具備 “深度思考” 的特性，但也暴露出了類似的問(wèn)題：在不必要的情況下生成過(guò)長(zhǎng)的思維鏈反而浪費(fèi)了計(jì)算資源。舉一個(gè)簡(jiǎn)單的例子，對(duì)于問(wèn)題 “2+3=？”，不同模型的回答長(zhǎng)度如下圖所示：

傳統(tǒng)模型的回答通常只需要極少的 token 就能給出答案，然而對(duì)于 o1 模型，其消耗的推理 token 直接達(dá)到了 200 以上。更極端的是，Deepseek-R1-Preview 和 QwQ-32B-Preview 的 token 消耗甚至達(dá)到了 900！為什么 QwQ 模型會(huì)產(chǎn)生如此之長(zhǎng)的輸出？研究團(tuán)隊(duì)進(jìn)一步分析了 QwQ 對(duì)這個(gè)問(wèn)題的答案，結(jié)果見(jiàn)下圖右欄：

QwQ-32B-Preview 模型會(huì)在推理過(guò)程中嘗試多種不同的解題策略。對(duì)于簡(jiǎn)單的加法問(wèn)題，模型探索了直接使用數(shù)學(xué)計(jì)算、數(shù)軸移動(dòng)模擬，以及類比數(shù)蘋(píng)果等方法，經(jīng)歷了多輪推理后才最終確定結(jié)果。盡管這種思維鏈策略對(duì)于復(fù)雜問(wèn)題的解答非常有幫助，但在應(yīng)對(duì)簡(jiǎn)單問(wèn)題時(shí)，反復(fù)驗(yàn)證已有的答案和進(jìn)行過(guò)于寬泛的探索顯然是一種計(jì)算資源的浪費(fèi)。為了更好地研究這個(gè)問(wèn)題，研究團(tuán)隊(duì)對(duì)這類 o1 模型的過(guò)度思考現(xiàn)象進(jìn)行了更細(xì)致的定義和深入分析。

過(guò)度思考現(xiàn)象

文章首先定義了模型回復(fù)中的獨(dú)立解答（Solution）：每當(dāng)模型完整地得到一次對(duì)輸入問(wèn)題的答案（無(wú)論對(duì)錯(cuò)），這就被認(rèn)為是一個(gè)獨(dú)立解答。如例子所示，每一個(gè)解答都包含了答案 “5”。基于這個(gè)定義，研究人員在三個(gè)不同的數(shù)據(jù)集上統(tǒng)計(jì)了 Qwen-QwQ-32B-Preview 模型和 Deepseek-R1-Preview 模型的解答數(shù)量分布（解答的判斷和抽取由 Llama-3.3-70B 模型完成）：

其中，ASDIV [3] 是一個(gè)包含小學(xué)難度數(shù)學(xué)題的測(cè)試集，GSM8K [4] 是常用的初級(jí)難度數(shù)學(xué)題測(cè)試集，MATH500 [5] 是高中數(shù)學(xué)競(jìng)賽難度的測(cè)試集。如圖所示，無(wú)論是對(duì)于 QwQ 模型還是 R1 模型，包含 2-4 個(gè)解答的樣本占了所有樣本的 70% 以上，可見(jiàn)這種 Solution-Level 的反思行為在當(dāng)前的類 o1 模型中十分普遍。那么這些解答本身是否都是必須的呢？下圖展示了在不同數(shù)據(jù)集上，模型首次得到正確答案的解答位置：

令人驚訝的是，對(duì) QwQ 模型和 R1 模型的實(shí)驗(yàn)分析顯示，它們?cè)诔?nbsp;90% 的情況下，都能在第一次嘗試中就成功輸出正確答案。也就是說(shuō)，后續(xù)多輪思考對(duì)答案正確率的提升幾乎沒(méi)有實(shí)質(zhì)性貢獻(xiàn)。這一現(xiàn)象進(jìn)一步驗(yàn)證了此前對(duì)模型過(guò)度思考的觀察：絕大多數(shù)情況下，模型的多輪反思可能只是在反復(fù)驗(yàn)證已有的答案，從而造成了資源浪費(fèi)。

然而，這種現(xiàn)象也引發(fā)了不同觀點(diǎn)的爭(zhēng)論。一些研究者認(rèn)為，o1 類模型的一個(gè)核心特性在于其能夠自主探索問(wèn)題的不同解法。從這一角度來(lái)看，如果模型在推理過(guò)程中使用了多種不同的思路來(lái)解決問(wèn)題，那么這種多樣化的探索不僅有助于加深模型對(duì)問(wèn)題的理解，還體現(xiàn)了模型的自主探索能力，不應(yīng)簡(jiǎn)單地視為 “過(guò)度思考”。為了更深入地剖析這一問(wèn)題，研究團(tuán)隊(duì)進(jìn)一步提出了一種分析方法。他們利用 GPT-4o 對(duì)模型的回答進(jìn)行分類，具體包括以下步驟：

推理策略分類：對(duì)每一個(gè)解答進(jìn)行推理策略的標(biāo)注，將采用相同推理方式的回答歸為同一類。例如，對(duì)于 “2+3=？” 這樣的問(wèn)題，可能涉及的推理策略包括數(shù)學(xué)運(yùn)算模擬、數(shù)軸移動(dòng)和實(shí)物類比等。
多樣性分析：在歸類的基礎(chǔ)上，分析并統(tǒng)計(jì)不同解答之間的推理策略多樣性。

通過(guò)這一方法，研究者能夠量化推理過(guò)程中是否存在真正意義上的 “多樣化探索”。這種分析為我們提供了衡量模型行為的一種新視角：當(dāng)模型的不同解答策略高度相似甚至重復(fù)時(shí)，可以說(shuō)明多輪推理的貢獻(xiàn)是有限的；而當(dāng)推理策略的多樣性伴隨著思考層次的提升而增加時(shí)，則反映了模型對(duì)問(wèn)題理解的進(jìn)一步加深。這種視角能夠幫助我們更準(zhǔn)確地區(qū)分 “有效的自主探索” 和 “低效的重復(fù)推理”。如下圖所示：

圖中展示了每個(gè)位置的解答引入新推理思路的可能性。第一個(gè)位置的解答總會(huì)是 “新的思路”，因此其概率為 100%。但隨著推理位置的后移，解答中帶來(lái)新推理思路的可能性逐漸降低。這一趨勢(shì)表明，越到后續(xù)位置，模型越傾向于重復(fù)先前的推理思路，從而導(dǎo)致其推理行為變得冗余且低效。從這個(gè)角度來(lái)看，模型的后續(xù)解答更多是一種無(wú)效的重復(fù)思考。

通過(guò)上述分析，我們可以發(fā)現(xiàn)這些過(guò)度思考所產(chǎn)生的解答往往具備以下兩個(gè)關(guān)鍵特征：

新解答對(duì)答案的正確性沒(méi)有貢獻(xiàn)：模型往往在一開(kāi)始就已經(jīng)成功得出正確答案，后續(xù)的多輪反復(fù)檢驗(yàn)是多余且不必要的。
新解答未能引入實(shí)質(zhì)性新思路：模型后續(xù)的解答僅以不同的表述方式重復(fù)了早先已有的結(jié)論，而沒(méi)有真正擴(kuò)展推理的深度或視角。

過(guò)度思考指標(biāo)

基于這一發(fā)現(xiàn)，研究團(tuán)隊(duì)進(jìn)一步定義了兩個(gè)衡量模型 “過(guò)度思考” 現(xiàn)象的核心指標(biāo)：

1. 產(chǎn)出效率（Outcome Efficiency）：用于衡量模型回復(fù)中每一個(gè)解答對(duì)最終答案的貢獻(xiàn)，等于正確解答中的 token 數(shù)除以完整回復(fù)的總 token 數(shù)。計(jì)算公式為：

其中，N 為樣本數(shù)，為模型第 i 個(gè)樣本的回復(fù)中第一個(gè)正確解答的 token 數(shù)目，為第i個(gè)樣本的整個(gè)回復(fù)的 token 數(shù)量，代表第i個(gè)樣本是否正確。直觀地看，一個(gè)模型得到正確解答之后進(jìn)行反思的輪數(shù)越少，正確解答在整個(gè)回復(fù)中的占比就越大，產(chǎn)出效率就越高。

2. 過(guò)程效率（Process Efficiency）：用于衡量模型回復(fù)中每一個(gè)解答對(duì)推理策略多樣性的貢獻(xiàn)，等于回復(fù)中屬于不同思路的總 token 數(shù)目除以整個(gè)回復(fù)的 token 數(shù)目，計(jì)算公式為：

其中 N 為樣本數(shù)，為第i個(gè)樣本的整個(gè)回復(fù) token 數(shù)量，為第i個(gè)樣本中所有屬于不同推理策略的 token 總數(shù)。該指標(biāo)衡量的是模型進(jìn)行多輪反思的有效性，回答中涉及的不同的推理策略越多，就會(huì)越大，那么過(guò)程效率就會(huì)越高。

基于這兩個(gè)指標(biāo)，研究者們統(tǒng)計(jì)了 QwQ 模型和 R1 模型在 MATH500 數(shù)據(jù)集上的效率指標(biāo)表現(xiàn)：

從圖中可以觀察到，R1 模型在效率上略優(yōu)于 QwQ 模型，但兩個(gè)模型都不同程度地暴露出 “過(guò)度思考” 的問(wèn)題。對(duì)于難度最低的等級(jí) 1 問(wèn)題，研究者發(fā)現(xiàn)兩個(gè)模型的表現(xiàn)都有如下特點(diǎn)：

產(chǎn)出效率不足一半：兩個(gè)模型在這種簡(jiǎn)單任務(wù)上的產(chǎn)出效率均未超過(guò) 50%，意味著模型在取得正確答案后，依然生成了超過(guò)必要推理步驟至少一倍的額外推理內(nèi)容。這符合上文的研究發(fā)現(xiàn)：正確答案通常在推理的較早階段得到，但模型的后續(xù)行為中存在大量冗余推理。
思考過(guò)程效率較低：模型的整體過(guò)程效率只有 70% 左右，這意味著約 30% 的思考步驟是在重復(fù)無(wú)效的推理。這種重復(fù)的行為不僅未能提升正確率，也沒(méi)有引入新的解題思路，從而造成了計(jì)算資源的浪費(fèi)。

從以上分析可見(jiàn)，現(xiàn)有的 o1 類模型都普遍存在不同程度的 “過(guò)度思考” 現(xiàn)象，且這一問(wèn)題在應(yīng)對(duì)簡(jiǎn)單任務(wù)時(shí)尤為嚴(yán)重。這些現(xiàn)象突顯了當(dāng)前 o1 類模型推理機(jī)制中的不足，也意味著在模型的長(zhǎng)思維鏈優(yōu)化和推理資源分配方面仍有較大的改進(jìn)空間。為此，研究者們提出了幾種方法，旨在緩解模型的過(guò)度思考現(xiàn)象，提升推理效率。

緩解過(guò)度思考

由于目標(biāo)是減少模型的過(guò)度思考但不損害模型的推理能力，因此最直接的想法就是通過(guò)偏好優(yōu)化算法來(lái)鼓勵(lì)模型生成更精簡(jiǎn)的回復(fù)。研究者們使用開(kāi)源的 Qwen-QwQ-32B-Preview 模型作為實(shí)驗(yàn)的基座模型，基于該模型在 PRM12K [10] 的數(shù)據(jù)集上的多次采樣結(jié)果，選擇最長(zhǎng)的模型回復(fù)作為偏好優(yōu)化的負(fù)樣本，而對(duì)于正樣本的選擇，有如下幾種策略：

最短回復(fù)（Shortest Response）：使用模型采樣結(jié)果中最短的生成結(jié)果作為正樣本。
首個(gè)正確回答（First-Correct Solutions, FCS）：使用模型采樣結(jié)果中最短的首次得到正確答案的解答作為正樣本，拋棄所有后續(xù)的思考。
首個(gè)正確回答 + 驗(yàn)算（FCS+Reflection）：由于絕大多數(shù)的采樣結(jié)果都是在第一個(gè)解答中就出現(xiàn)了正確答案，僅保留首個(gè)正確回答可能會(huì)使得模型退化，因此研究者們?cè)诘谝淮蔚玫秸_答案后，額外保留了一輪反思的內(nèi)容。
最多樣回復(fù)（Greedily Diverse Solutions，GDS）：除了單純地對(duì)長(zhǎng)度進(jìn)行控制，另一個(gè)優(yōu)化思路是盡可能保留更多樣化的思考軌跡，因此研究者們?cè)?FCS 方法的基礎(chǔ)上，盡可能多地保留了包含不同推理策略的解答。

基于以上幾種偏好數(shù)據(jù)，研究者們嘗試了最基礎(chǔ)的 SFT 以及多種偏好優(yōu)化算法，如 DPO [6]，RPO [7][8] 以及 SimPO [8]。實(shí)驗(yàn)結(jié)果如下：

表格中的 SFT 方法是指僅使用正樣本進(jìn)行微調(diào)。從表格中可以看出，在同樣的 “最短回復(fù)” 設(shè)置下，SimPO 有著最好的優(yōu)化效果，而基于 SimPO 的進(jìn)一步實(shí)驗(yàn)表明，使用首個(gè)正確回答 + 驗(yàn)算作為正樣本的策略能夠很好地取得效率和性能的平衡，能夠在保持模型性能的同時(shí)大幅度地減少輸出的 token 數(shù)目以及平均解答輪數(shù)，并有效地提高產(chǎn)出效率和過(guò)程效率。為了進(jìn)一步分析方法的有效性，研究者們分析了 MATH500 測(cè)試集的不同難度下 SimPO+FCS+Reflection 方法的表現(xiàn)，如下圖所示：

有意思是，文中提出的方法在最簡(jiǎn)單的難度 1 的問(wèn)題上，僅使用了相比于原來(lái) 63.6% 的 token 數(shù)目便達(dá)到了 100% 的正確率，而且在難題（難度 4 和 5）上，文中的方法能夠在提升性能的同時(shí)大幅度減少輸出的冗余，這展示了提出的方法在減緩過(guò)度思考上的有效性。

總結(jié)

這篇論文聚焦于 o1 類推理模型面臨的一個(gè)核心挑戰(zhàn)：如何合理控制推理過(guò)程中的計(jì)算量，提升思考效率。文章通過(guò)分析實(shí)驗(yàn)揭示了一個(gè)普遍問(wèn)題 ——o1 類模型在處理簡(jiǎn)單問(wèn)題時(shí)容易陷入過(guò)度思考，從而增加了不必要的計(jì)算消耗?；趯?duì)此現(xiàn)象的詳細(xì)分析，研究者提出了一系列有效的優(yōu)化方法，能夠在保持模型性能的同時(shí)，大幅減少冗余推理，提升推理效率。這些方法的實(shí)驗(yàn)結(jié)果表明，它們顯著優(yōu)化了模型在簡(jiǎn)單任務(wù)上的資源利用情況，為實(shí)現(xiàn) “高效思考” 的目標(biāo)邁出了重要一步。未來(lái)的研究將重點(diǎn)探索以下方向：

自適應(yīng)調(diào)控策略：開(kāi)發(fā)讓模型根據(jù)問(wèn)題復(fù)雜程度動(dòng)態(tài)調(diào)整推理深度的機(jī)制，更智能地分配計(jì)算資源；
更精細(xì)的效率評(píng)估指標(biāo)：設(shè)計(jì)能夠覆蓋更廣泛推理軌跡的指標(biāo)，從而更全面地評(píng)估模型的思考效率。

這項(xiàng)研究不僅提升了 o1 類模型的推理，同時(shí)也為未來(lái)更高效、更智能的推理機(jī)制提供了重要的理論基礎(chǔ)與實(shí)踐參考。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 訓(xùn)練數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<center id="1pl95"><i id="1pl95"></i></center>

^{<blockquote id="1pl95"></blockquote>}

^{<blockquote id="1pl95"><i id="1pl95"></i></blockquote>}