炸裂更新!全球首個混合推理模型Claude 3.7 Sonnet發(fā)布,編碼能力直接起飛! 原創(chuàng)
在人工智能領(lǐng)域,每一次重大突破都能引發(fā)全球科技愛好者的熱烈討論。Anthropic公司發(fā)布的全新模型——Claude 3.7 Sonnet,無疑再次點(diǎn)燃了AI社區(qū)的熱情。作為全球首個混合推理模型,Claude 3.7 Sonnet不僅在編碼能力上實(shí)現(xiàn)了質(zhì)的飛躍,還通過其獨(dú)特的“標(biāo)準(zhǔn)和擴(kuò)展思考模式”重新定義了AI的推理方式。
一個模型,兩種思考方式
Claude 3.7 Sonnet的最大亮點(diǎn)在于其“一個模型,兩種思考方式”的設(shè)計理念。用戶可以根據(jù)需求選擇“標(biāo)準(zhǔn)模式”或“擴(kuò)展思考模式”。
- 標(biāo)準(zhǔn)模式:提供近乎即時的響應(yīng),適合快速問答和常規(guī)任務(wù)處理
- 擴(kuò)展思考模式:模型會在回答前進(jìn)行更深入的自我反思,顯著提升其在數(shù)學(xué)、物理、指令遵循和編碼等復(fù)雜任務(wù)中的表現(xiàn)。這種模式特別適合那些需要深度思考的場景,比如解決復(fù)雜的編程問題或進(jìn)行科學(xué)推理。
這種設(shè)計不僅讓Claude 3.7 Sonnet在靈活性上遠(yuǎn)超其他模型,還為用戶提供了更高的控制權(quán)。通過API,用戶甚至可以精確控制模型的思考時間,從而在速度和答案質(zhì)量之間找到最佳平衡點(diǎn)。
代碼能力開掛!實(shí)測數(shù)據(jù)吊打全場
Anthropic此次將重點(diǎn)放在了編碼能力的提升上,Claude 3.7 Sonnet在多個編碼基準(zhǔn)測試中表現(xiàn)出了壓倒性的優(yōu)勢。
- 在SWE-bench Verified(評估LLM解決GitHub上真實(shí)軟件問題能力的基準(zhǔn)測試數(shù)據(jù)集)上,Claude 3.7 Sonnet實(shí)現(xiàn)了SOTA(State of the Art)性能,遠(yuǎn)超Claude 3.5 Sonnet、OpenAI的o3-mini (high)和DeepSeek R1等競爭對手。
- 在TAU-bench(評估 LLM 在復(fù)雜真實(shí)場景中用戶與工具交互能力的基準(zhǔn)測試平臺)上,Claude 3.7 Sonnet 同樣實(shí)現(xiàn)了SOTA 性能,超過了 Claude 3.5 Sonnet 和 OpenAI 的 o1。
雖然 Claude 3.7 Sonnet 在指令遵循、通用推理、多模態(tài)能力和智能編碼方面表現(xiàn)出色,擴(kuò)展思考在數(shù)學(xué)和科學(xué)方面實(shí)現(xiàn)了顯著提升,但在一些方面依然不及 OpenAI 的 o3-mini (high)、Grok-3 Beta 等。
總結(jié)
從這次發(fā)布可以看出,Anthropic明顯將重點(diǎn)放在了編碼能力的提升上,其他領(lǐng)域雖然也有進(jìn)步,但編碼無疑是Claude 3.7 Sonnet的核心競爭力。Anthropic似乎有意將Sonnet系列定位為“編碼AI助手”,專為開發(fā)者打造。今天我打開cursor,發(fā)現(xiàn)已經(jīng)支持Claude Sonnet 3.7版本了,大家可以趕緊去嘗鮮!
本文轉(zhuǎn)載自公眾號AI 博物院 作者:longyunfeigu
原文鏈接:??https://mp.weixin.qq.com/s/4bnADpVxC_ARJEBacTV4VQ???
