自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多元推理刷新「人類(lèi)的最后考試」記錄,o3-mini(high)準(zhǔn)確率最高飆升到37%

人工智能 新聞
近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測(cè)試時(shí)結(jié)合多種模型和方法的多元推理方法。

近段時(shí)間,DeepSeek R1 推理模型引爆了國(guó)內(nèi)外社交媒體,讓人們見(jiàn)識(shí)到了大語(yǔ)言模型類(lèi)人的深度思考能力。

雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數(shù)學(xué)和編程領(lǐng)域取得了重大進(jìn)展,但在面對(duì)一些測(cè)試基準(zhǔn)時(shí)仍然力不從心,比如國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)組合問(wèn)題、抽象和推理語(yǔ)料庫(kù)(ARC)謎題和人類(lèi)的最后考試(HLE)問(wèn)題。以 HLE 為例,主流的推理模型集體翻車(chē),結(jié)果顯示 DeepSeekR1、o1 的準(zhǔn)確率都低于 10%。

如何提升推理模型在這些較難基準(zhǔn)上的準(zhǔn)確率呢?近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測(cè)試時(shí)結(jié)合多種模型和方法的多元推理方法。結(jié)果顯示,該推理方法在驗(yàn)證數(shù)學(xué)和編碼問(wèn)題以及其他問(wèn)題的拒絕采樣時(shí)簡(jiǎn)單而高效。

具體來(lái)講,研究者通過(guò)交互式定理證明器 Lean 來(lái)自動(dòng)驗(yàn)證 IMO 問(wèn)題答案的正確性,通過(guò)代碼自動(dòng)驗(yàn)證 ARC 謎題,以及通過(guò) best-of-N 算法有效地回答 HLE 問(wèn)題。

  • 論文標(biāo)題:Diverse Inference and Verification for Advanced Reasoning
  • 論文地址:https://arxiv.org/pdf/2502.09955

從實(shí)驗(yàn)結(jié)果來(lái)看,研究者將 IMO 組合問(wèn)題答案的準(zhǔn)確率從 33.3% 提升到 77.8%,將 HLE 問(wèn)題的準(zhǔn)確率從 8% 提升到 37%,并解決了 948 名人類(lèi)無(wú)法攻克的 80%的 ARC 謎題和 o3 high 無(wú)法解決的 26.5 % 的 ARC 謎題。

研究者表示,通過(guò)調(diào)整代理圖表示和不同的提示詞、代碼和數(shù)據(jù)集,測(cè)試時(shí)模擬、強(qiáng)化學(xué)習(xí)和具有推理反饋的元學(xué)習(xí)等可以提高推理模型的泛化能力。

此外,研究者還發(fā)現(xiàn)了基礎(chǔ)語(yǔ)言模型的第三個(gè)實(shí)證性 scaling law,即多種模型、方法的數(shù)量與可驗(yàn)證問(wèn)題性能之間的關(guān)系,它們呈正向關(guān)系。前兩個(gè) scaling law 分別如下:

  • 模型大小、數(shù)據(jù)大小和損失之間的關(guān)系,即更多參數(shù)、訓(xùn)練數(shù)據(jù)和訓(xùn)練時(shí)的語(yǔ)言模型表現(xiàn)更好。
  • 模型性能和測(cè)試時(shí)算力之間的關(guān)系,早期棋盤(pán)游戲中驗(yàn)證了訓(xùn)練時(shí)和測(cè)試時(shí)算力之間的權(quán)衡,增加其中任何一項(xiàng)都會(huì)帶來(lái)更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測(cè)試時(shí)算力擴(kuò)展對(duì)推理型 LLM 的助益。

方法概覽

研究者在方法部分主要有以下三項(xiàng)成果:

一是多元推理(diverse inference)。研究者在測(cè)試時(shí)聚合了多個(gè)模型、方法和代理,而不是依賴單個(gè)模型和方法。任何一個(gè)正確的解決方案都會(huì)對(duì) IMO 組合題和 ARC 謎題的可驗(yàn)證任務(wù)進(jìn)行自動(dòng)驗(yàn)證。具體如下:

  • IMO:研究者使用 8 種不同的方法,分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以顯著提高推理模型準(zhǔn)確率。其中將英語(yǔ)題目自動(dòng)形式化為 Lean,從而完成了完美驗(yàn)證。
  • ARC:合成代碼解決方案在訓(xùn)練示例上作為單元測(cè)試(unit test)進(jìn)行驗(yàn)證。
  • HLE:使用 best-of-N 作為不完美驗(yàn)證器,隨著示例增加而解決率提升。

二是測(cè)試時(shí)模擬和強(qiáng)化學(xué)習(xí)。研究者在推理時(shí)生成了額外的特定于問(wèn)題的信息,其中:

  • IMO:將組合題轉(zhuǎn)化為了可交互游戲環(huán)境,并使用組合搜索或深度強(qiáng)化學(xué)習(xí)來(lái)得出部分結(jié)果或邊界。
  • ARC:通過(guò)合成代碼來(lái)探索謎題轉(zhuǎn)換,從而刪除不正確的解決方案并優(yōu)化候選解決方案。

另外,研究者表示,在給定相同數(shù)據(jù)集的情況下,使用訓(xùn)練過(guò)的驗(yàn)證器進(jìn)行搜索往往比監(jiān)督微調(diào)效果要好,這激發(fā)了強(qiáng)化學(xué)習(xí)微調(diào)。他們通過(guò)運(yùn)行測(cè)試時(shí)模擬和強(qiáng)化學(xué)習(xí)來(lái)生成額外數(shù)據(jù),從而能夠正確證明 2024 IMO 組合題并求解困難的 ARC 謎題。

下圖 1 展示了研究者求解 IMO 組合題所用方法的高級(jí)架構(gòu),其流程包含了幾個(gè)組件,分別是編碼、模擬以及深度強(qiáng)化學(xué)習(xí)和解碼。

在編碼階段,研究者通過(guò)將問(wèn)題形式化為狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)來(lái)找到答案,然后提示 LLM 將問(wèn)題轉(zhuǎn)化為一個(gè)游戲環(huán)境。研究者將問(wèn)題表示為 Gymnasium 開(kāi)源項(xiàng)目中的 Python 代碼,其中包括代理和策略,并使用模擬和深度強(qiáng)化學(xué)習(xí)來(lái)找到最優(yōu)策略。他們重復(fù)此過(guò)程,為每個(gè)問(wèn)題生成具有不同維的多個(gè)游戲,并為每個(gè)游戲的不同情節(jié)生成對(duì)應(yīng)的數(shù)據(jù)和視頻。

在解碼階段,研究者提取數(shù)據(jù)和幀并通過(guò)轉(zhuǎn)換對(duì)它們進(jìn)行擴(kuò)充,并使用 LLM 以摘要的形式為每個(gè)序列的圖像和策略解釋編寫(xiě)文本表示。最后,研究者利用這些信息以及附錄 M 和 N 中的問(wèn)題陳述、答案、書(shū)籍和指南,通過(guò)上下文學(xué)習(xí)來(lái)自動(dòng)形式化證明。

三是代碼圖的元學(xué)習(xí)。研究者使用 LLM 和其他工具來(lái)追蹤 pipeline 運(yùn)行,并生成超參數(shù)、提示詞、代碼標(biāo)題和數(shù)據(jù)的 A/B 測(cè)試,并自適應(yīng)地修改代理圖。

實(shí)驗(yàn)結(jié)果

研究者使用了不同的模型和方法對(duì) IMO 組合問(wèn)題進(jìn)行了廣泛的評(píng)估,他們測(cè)試了來(lái)自未污染(non-contaminated)考試中的所有組合問(wèn)題。

結(jié)果顯示,零樣本 o1 回答對(duì)了 1/9(準(zhǔn)確率約 11%)的問(wèn)題,使用 o3-mini 的最佳方法回答對(duì)了 3/9(準(zhǔn)確率約 33.3%)的問(wèn)題,而使用了 o3-mini high 的 8 種多元方法回答對(duì)了 7/9(準(zhǔn)確率約 77.8%)的問(wèn)題,并進(jìn)行了自動(dòng)驗(yàn)證。

類(lèi)似地,使用 o1 的最佳方法回答對(duì)了 3/9(準(zhǔn)確率約 33.3%)的問(wèn)題,而使用了 o1 的多元方法回答對(duì)了 6/9(準(zhǔn)確率約 66.7%)的問(wèn)題,也進(jìn)行了自動(dòng)驗(yàn)證。

其次,研究者使用了 400 個(gè) ARC 評(píng)估謎題,對(duì) 16 個(gè)模型和方法進(jìn)行了廣泛的評(píng)估,結(jié)果如下圖 4 和圖 5 所示,共有以下幾項(xiàng)發(fā)現(xiàn)

  • 沒(méi)有 o3,16 個(gè)多元模型和方法將模型性能從 53%提升到了 69.5%。
  • 有了 o3,16 個(gè)多元模型和方法將模型性能從 91.5% 提升到了 93.75%。
  • 16 個(gè)多元模型和方法解決了 948 名人類(lèi)無(wú)法解決的 80% 的謎題。
  • 16 個(gè)多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。

最后對(duì)于 HLE 問(wèn)題,由于計(jì)算成本的原因,研究者隨機(jī)抽取了 100 個(gè)問(wèn)題進(jìn)行測(cè)試。不同模型和方法的準(zhǔn)確率如下表 1 所示,其中 o3-mini high 非多模態(tài),取得了 13.0%的準(zhǔn)確率;Deep Research 使用了網(wǎng)絡(luò)搜索和代碼,取得了最高 26.6%的準(zhǔn)確率。

此外,使用 o3-mini high 對(duì)這 100 個(gè)隨機(jī)采樣問(wèn)題進(jìn)行 best-of-N 拒絕采樣(N=3),所有類(lèi)別的準(zhǔn)確率為 37%,數(shù)學(xué)問(wèn)題的準(zhǔn)確率為 33.3%;使用 o1 時(shí)所有類(lèi)別的準(zhǔn)確率為 21%,數(shù)學(xué)問(wèn)題的準(zhǔn)確率為 29.6%,具體如下圖 6 和圖 7 所示。


更多方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱論文附錄。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-08 17:00:11

2024-12-24 16:15:04

2025-01-20 19:52:50

2025-02-03 14:06:32

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-02-08 11:44:03

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓(xùn)練

2025-02-10 00:00:01

2025-02-18 09:00:00

2025-02-25 12:30:00

2025-05-13 08:24:14

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2025-04-27 09:15:40

2025-02-07 11:20:50

2020-10-29 15:58:43

阿里AI雙11

2025-04-23 08:30:05

2024-01-29 12:49:00

AI模型

2024-07-08 08:39:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)