剛剛，GPT-4.5發(fā)布！OpenAI最大最貴模型，主打情商高，奧特曼帶娃缺席發(fā)布會

作者：量子位 2025-02-28 08:47:00

人工智能新聞

這次OpenAI也不打算秀炫酷的解題，也不打算曬各種榜單的排名，反而強(qiáng)調(diào)起了情商。

GPT-4.5正式發(fā)布，號稱OpenAI最大和最好的聊天模型。

但很意外啊，這么大的事奧特曼都不來。

這次OpenAI也不打算秀炫酷的解題，也不打算曬各種榜單的排名，反而強(qiáng)調(diào)起了情商。

第一個(gè)現(xiàn)場演示：

“我又被朋友鴿了，幫我寫個(gè)短信告訴他們我恨他們?！?/p>

o1意識到這樣會“友盡”，但也只是很忠實(shí)的按要求完成了任務(wù)。

GPT-4.5甚至都沒完成提示詞中的任務(wù)，但整個(gè)互動顯得更自然了：

先識別出用戶很煩惱
建議更清楚的表達(dá)自己的情緒
給出兩種備選方案
再詢問用戶是否堅(jiān)持原來的要求

第二個(gè)現(xiàn)場演示，強(qiáng)調(diào)GPT-4.5掌握更多世界知識，以及講述知識的方式更自然。

解釋為什么海水是咸的。

GPT-4 Turbo掌握很多知識，但回答就像是在炫耀它很有知識，只是把事實(shí)羅列在一起。

同樣這些知識，GPT-4.5的語氣更有互動感，還考慮到用一句簡潔的開場，讓用戶更容易記住三個(gè)關(guān)鍵詞。

面對更專業(yè)的問題“用第一性原理解釋AI對齊的必要性”，o1的回答像是寫論文，而GPT-4.5通過“第1步、第2步、第3步……”來引導(dǎo)用戶思考這個(gè)問題。

除了演示之外，直播中也透露了GPT-4.5開發(fā)過程的一些內(nèi)幕：

如“激進(jìn)地”使用了低精度訓(xùn)練，預(yù)訓(xùn)練階段跨多個(gè)數(shù)據(jù)中心完成。GPT-4.5會成為未來推理模型的基礎(chǔ)模型。

從今天起，GPT-4.5開放給200美元一個(gè)月的Pro用戶。下周逐步開放給20美元一個(gè)月的Plus用戶。

不是最前沿，但是最大模型

技術(shù)報(bào)告中表示：GPT-4.5不是一個(gè)前沿模型，但它是OpenAI最大的語言模型，比GPT-4的計(jì)算效率提高了10倍以上。

OpenAI稱通過擴(kuò)展無監(jiān)督學(xué)習(xí)和推理提升AI的能力。

GPT?4.5通過擴(kuò)展計(jì)算和數(shù)據(jù)以及架構(gòu)優(yōu)化擴(kuò)展了無監(jiān)督學(xué)習(xí)，擁有更廣泛的知識和更深入的世界理解能力，所以幻覺更少。

在衡量LLM事實(shí)準(zhǔn)確性的SimpleQA基準(zhǔn)上，GPT-4.5準(zhǔn)確率62.5%，幻覺率37.1%，比GPT-4o、o1、o3mini優(yōu)化了不少。

以下是一個(gè)具體的幻覺降低的案例。

假如用戶詢問“第一種語言是什么”，GPT-4.5會誠實(shí)回答不知道、這還是人類未解之謎，而不是隨便蒙一個(gè)答案。

此外，Blog中還稱開發(fā)了新的可擴(kuò)展的技術(shù)，能夠利用從小型模型衍生出的數(shù)據(jù)來訓(xùn)練更大更強(qiáng)的模型，由此提升了GPT?4.5的可操控性、對細(xì)微差別的理解以及自然對話能力。

在人類偏好評估中，測試者更傾向于選擇GPT?4.5而非GPT?4o。

OpenAI表示，GPT?4.5對人類意圖的理解更深刻，能夠以更細(xì)膩的“情商”解讀微妙的線索或隱含的期望，還展現(xiàn)出了更強(qiáng)的審美直覺和創(chuàng)造力，在協(xié)助寫作和設(shè)計(jì)方面表現(xiàn)出色。

比如，當(dāng)用戶表達(dá)“考試不及格、很難過”，它會安慰、鼓勵用戶。作為對比，4o給出的回答就更加冰冷，沒什么安慰的話語。

在一些回復(fù)上，GPT?4.5對比4o回答也更簡潔。

另外，OpenAI還曬出了GPT?4.5在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)測試中的結(jié)果，全面超越GPT-4o，在SWE-Lancer Diamond（coding）和MMMLU（multilingual）上超越o3-mini。

API定價(jià)非常貴

值得一提的是，GPT-4.5的API定價(jià)非常貴。

75美元/百萬tokens輸入、150美元/百萬tokens輸出。

對比GPT-4o，定價(jià)高出去15-30倍。

到底這個(gè)價(jià)格值不值呢？不少人已經(jīng)分享了搶先體驗(yàn)的效果。

拿到內(nèi)測的博主表示，實(shí)際使用中GPT-4.5非常有創(chuàng)造力、一定上了很多人文課。

Claude 3.7和GPT-4.5兩個(gè)，非常相似。

他還列舉了GPT-4.5視覺理解能力很強(qiáng)的例子。它能從這張星露谷截圖中發(fā)現(xiàn)非常小的元素蝴蝶。

“獨(dú)角獸評估”的實(shí)測表現(xiàn)也很好。

后續(xù)隨著更多實(shí)測放出，應(yīng)該還能看到更多有意思的例子。

One More Thing

最后，大家一定很關(guān)心，奧特曼去哪了呢？

在醫(yī)院照顧小孩。

是的，他最近剛剛喜提一子。

直播回放：https://www.youtube.com/watch?v=cfRYp0nItZ8

參考鏈接：https://openai.com/index/introducing-gpt-4-5/

責(zé)任編輯：張燕妮來源：量子位

OpenAI 模型 AI

相似話題

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛，GPT-4.5發(fā)布！OpenAI最大最貴模型，主打情商高，奧特曼帶娃缺席發(fā)布會

不是最前沿，但是最大模型

API定價(jià)非常貴

One More Thing

剛剛，GPT-4.5發(fā)布！OpenAI最大最貴模型，主打情商高，奧特曼帶娃缺席發(fā)布會

不是最前沿，但是最大模型