OpenAI發(fā)布新模型:o1系列模型,更像理科生的模型 精華
本來(lái)今天準(zhǔn)備發(fā)一篇金融相關(guān)的Agent論文
結(jié)果一大早上,各大群就都開始流傳著各種聊天記錄
原來(lái)是凌晨OpenAI發(fā)布了新的 o1 系列模型(以下簡(jiǎn)稱 o1模型或o1),所以迫不及待的找了些資料趕緊學(xué)習(xí)下。
圖片
看上去,這個(gè) o1 系列模型在數(shù)學(xué)、編碼、科學(xué)等一系列理科生擅長(zhǎng)的事情上,表現(xiàn)比GPT4還好。
目前,各大微信群的討論大致分為兩種觀點(diǎn):
? o1 太牛逼了,GPT5來(lái)了,AGI立馬到來(lái)!
? o1 這不就是個(gè) Workflow + Agent嗎?
收集了各方的【小道消息】,其實(shí)就是是【X】上各種OpenAI發(fā)布的消息 + 微信群聊天記錄 + OpenAI官方文檔。
可以總結(jié)一下:
? o1模型最大的特點(diǎn):輸出最終答案前,會(huì)進(jìn)行深入思考,這種思考不是簡(jiǎn)單的通過(guò)提示工程來(lái)注入的,而是通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的。
? o1模型的尺寸不會(huì)很大,是個(gè)小尺寸大模型(證據(jù)來(lái)自O(shè)penAI研究院 Jason Wei的X,如下圖),但是到底多???不知道。
圖片
緊接著英偉達(dá)科學(xué)家 Jim Fan 也發(fā)了消息,對(duì) o1 模型做了一些解讀,我們匯總一下要點(diǎn):
? 模型的大多數(shù)參數(shù)只是用來(lái)記憶事實(shí),而推理核心不需要太多參數(shù)??梢詮闹R(shí)中分離出一個(gè)小的“推理核心”,這樣可以減少大量的預(yù)訓(xùn)練計(jì)算。
? 大量計(jì)算由原來(lái)的訓(xùn)練階段,轉(zhuǎn)移到了服務(wù)推理階段。
? o1在實(shí)際應(yīng)用落地的難度遠(yuǎn)比學(xué)術(shù)基準(zhǔn)測(cè)評(píng)要更難,這一塊還有待后續(xù)大家進(jìn)一步探索。
? o1模型也會(huì)像之前ChatGPT一樣,形成數(shù)據(jù)飛輪,催生更多訓(xùn)練數(shù)據(jù)和模型的出現(xiàn)。
o1是不是GPT5?
目前,根據(jù)各方消息看來(lái),o1并不是部分自媒體吹噓的GPT5。
至少?gòu)腛penAI官方文檔中,看不到任何描述能將GPT5和o1模型聯(lián)系在一起的。
o1算是strawberry / Q* 項(xiàng)目的一個(gè)產(chǎn)出。
圖片
圖片
雖然沒(méi)有被宣稱為GPT5,但是o1是一個(gè)不同于傳統(tǒng)的GPT3.5和GPT4的新范式。在OpenAI的開發(fā)者文檔中,我們可以發(fā)現(xiàn),o1模型被單獨(dú)列為推理模型(Reasonging Models),這是否意味著之前 Altman 宣稱的將數(shù)據(jù)與推理引擎分離的構(gòu)想已經(jīng)實(shí)現(xiàn),或者已經(jīng)邁出實(shí)質(zhì)性的一步?
這也與前面英偉達(dá)科學(xué)家 Jim Fan 提到的觀點(diǎn)相呼應(yīng):模型的大多數(shù)參數(shù)只是用來(lái)記憶事實(shí),而推理核心不需要太多參數(shù),可以從知識(shí)中分離出一個(gè)小的“推理核心”。
o1模型是不是一個(gè)Agentic Workflow?
這是今天很多群里充斥的觀點(diǎn)之一,在大家非常興奮的體驗(yàn)了o1模型后,部分同學(xué),包括一些自媒體也紛紛得出這樣的結(jié)論,甚至開始唱衰OpenAI。
比如,有的自媒體開始【大膽】的猜測(cè):這次的草莓o1有可能是 gpt-4o 在進(jìn)行一些微調(diào)/對(duì)齊后的 agent。
包括說(shuō):
這有沒(méi)有可能就是封裝了workflow而已?
在仔細(xì)閱讀了各種資料后,我的猜測(cè), o1模型肯定不是 agent,原因如下:
1、o1是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)的推理模型
在官方文檔中,o1模型被定義為推理模型,而且是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,使用了思維鏈進(jìn)行推理。o1模型的一個(gè)顯著區(qū)別就是o1模型引入了一個(gè)成為推理token的概念,對(duì)用戶提出的問(wèn)題,探索多種生成回答的方法,最后模型以一種被稱為可見token的方式輸出答案。
這種token的設(shè)計(jì),也導(dǎo)致了一些與之前的模型的區(qū)別,比如:
- ?實(shí)際生成的token數(shù)與系統(tǒng)返回的token數(shù)存在差異:甚至一個(gè)很簡(jiǎn)單的問(wèn)題,也會(huì)消耗大量token。比如,當(dāng)回答一個(gè)簡(jiǎn)單的提示詞“你好”的時(shí)候(雖然個(gè)人認(rèn)為,這樣的提示詞并不是推理模型所擅長(zhǎng)的),模型消耗了 400 多個(gè)token。PS:在OpenAI的官方文檔中,明確提出大家在使用o1模型的時(shí)候要預(yù)留窗口空間給推理token。比如下圖,當(dāng)輸出長(zhǎng)度超出了限制時(shí),可見輸出就看不到了。
圖片
?模型耗時(shí)增加:因?yàn)橹虚g多了一個(gè)推理過(guò)程(多方式推理,可能通過(guò)一種類似MCTS的方法來(lái)進(jìn)行最佳路徑搜索),所以模型輸出會(huì)比其他模型消耗更多的時(shí)間(如下圖)。
圖片
2、沒(méi)有多模態(tài)、沒(méi)有系統(tǒng)提示詞、沒(méi)有工具調(diào)用、沒(méi)有stream輸出等等
如果o1只是一個(gè)Agent應(yīng)用,那么為什么不把這些系統(tǒng)提示詞、工具調(diào)用、stream輸出加上?這些對(duì)OpenAI的工程師來(lái)說(shuō)是個(gè)難題?咱們國(guó)內(nèi)的組合式創(chuàng)新團(tuán)隊(duì)都能做的事情,OpenAI居然做不了?
3、完全不同的提示詞策略
在OpenAI的官方文檔中,我們可以發(fā)現(xiàn),OpenAI給出了針對(duì)推理模型的提示詞建議:
? 由于模型內(nèi)部已經(jīng)進(jìn)行推理,過(guò)去的few shot或者zero shot cot(要求模型逐步思考)的提示詞技巧,可能并不會(huì)提升性能,反而可能會(huì)降低性能。
? 保持提示簡(jiǎn)潔明了:模型擅長(zhǎng)理解并回應(yīng)簡(jiǎn)短而清晰的指令,無(wú)需過(guò)多指導(dǎo)。
? 利用分隔符提高清晰度:使用三重引號(hào)、XML標(biāo)簽或小節(jié)標(biāo)題等分隔符,明確區(qū)分輸入的不同部分,幫助模型更準(zhǔn)確地解讀。
? 在檢索增強(qiáng)生成(RAG)中限制額外上下文:提供額外上下文或文檔時(shí),只包含最相關(guān)的信息,以免模型的回應(yīng)過(guò)于復(fù)雜。
綜上,o1模型應(yīng)該并不是一個(gè)Agentic Workflow應(yīng)用,而是一個(gè)確確實(shí)實(shí)的新的模型范式。而且這應(yīng)該只是OpenAI在這個(gè)事情上踏出的第一步(也許我們從代號(hào)1就可以看出,重新命名,而不是繼承),而不是最后一步,目前的o1模型也不打算取代GPT4\GPT4-o等模型的地位。
o1模型到底強(qiáng)還是弱?
答案是,o1肯定強(qiáng),但是也沒(méi)有強(qiáng)到無(wú)與倫比。
目前流傳的各種體驗(yàn),測(cè)試結(jié)果來(lái)看,o1肯定是強(qiáng)的,特別是在需要推理的STEM領(lǐng)域(STEM是Science、Technology、Engineering、Mathematics 四個(gè)英文單詞首字母的縮寫)。
各種數(shù)據(jù)我就不羅列了,應(yīng)該鋪天蓋地都是。
但是o1仍然是不強(qiáng)的,比如,o1還是無(wú)法完全正確回答一些問(wèn)題,比如大家都在嘗試問(wèn)他9.11和9.8到底誰(shuí)大的問(wèn)題。
這側(cè)面說(shuō)明,即使o1是一個(gè)推理引擎,但他始終還是利用語(yǔ)言來(lái)模擬自然世界,與規(guī)則的方法不一樣。
所以,對(duì)于o1模型,我們需要客觀的看待,即使o1模型很強(qiáng),但是也仍然是有幻覺(jué)的。
圖片
當(dāng)然,有人我們未來(lái)可能遇到號(hào)稱比 o1 強(qiáng)69倍的GPT-5模型,但是如果范式不變,我想仍然是無(wú)法從根本上解決 9.11和9.8 誰(shuí)大這類問(wèn)題的。
為什么說(shuō)o1是一個(gè)更像理科生的模型?
不知道大家有沒(méi)有關(guān)注到,OpenAI的文檔里,花了很大篇幅描述o1模型在STEM和安全方面的評(píng)估。
以及,在 Greg Brockman 發(fā)的消息里可以看到,OpenAI是認(rèn)可 o1 模型實(shí)際上是使模型從 System1 向 System 2 靠近的動(dòng)作(之所以說(shuō)靠近,是因?yàn)閭€(gè)人認(rèn)為System1和System2邊界并不明顯)。
圖片
在之前的論文里我們也討論過(guò),System1和System2的區(qū)別在于:
System1:快速,不加思考、不做計(jì)算、僅憑直覺(jué)就做出判斷。比如,當(dāng)我們回答1+1這個(gè)問(wèn)題的時(shí)候,我們的大腦可以不加思考的回答出等于2。所以系統(tǒng)一的特點(diǎn)是:快思考、熱啟動(dòng)、直覺(jué)判斷。
System2:速度,需要做復(fù)雜的計(jì)算、推理,但回答準(zhǔn)確度高。比如,當(dāng)我們回答123乘以879的時(shí)候,我們無(wú)法通過(guò)我們的快思考來(lái)回答,我們需要調(diào)用大腦的計(jì)算模塊,對(duì)這個(gè)問(wèn)題進(jìn)行復(fù)雜的計(jì)算后才能回答。所以系統(tǒng)二的特點(diǎn)是:慢思考、啟動(dòng)慢、耗費(fèi)能量高、判斷準(zhǔn)確。
而o1則是試圖使用內(nèi)置的CoT來(lái)引導(dǎo)模型生成更加準(zhǔn)確的答案,而需要這些嚴(yán)格推理邏輯的則是STEM里的這幾門學(xué)科。所以我們可以認(rèn)為,相比過(guò)去的大語(yǔ)言模型(真快,這才2年不到,就可以說(shuō)過(guò)去了),o1更加像一個(gè)理科生思考。這并不是說(shuō)o1是理科生,而是說(shuō),大語(yǔ)言模型過(guò)去更像一個(gè)文科生,特別是zero shot的時(shí)候,而現(xiàn)在的o1則是在彌補(bǔ)理科生這個(gè)短板。
是否要馬上把o1模型用起來(lái)?
對(duì)于這塊,我的答案是謹(jǐn)慎!
1、模型仍不完善
o1模型并非一個(gè)成熟的產(chǎn)品,這點(diǎn)從官方文檔、X上的討論都可以看得出。目前還處于beta狀態(tài),而且各種功能的缺失,比如System Prompt、tool調(diào)用、參數(shù)設(shè)置等等。以及 o1-mini 所涉及的知識(shí)、領(lǐng)域仍然比較有限。
2、推理速度限制
雖然o1模型是個(gè)新模型,是新一代模型范式,是大家眼中的未來(lái)。但是o1模型因?yàn)樽陨碓O(shè)計(jì)的原因,會(huì)導(dǎo)致比其他模型消耗更長(zhǎng)的時(shí)間。所以在很多應(yīng)用中,特別是對(duì)時(shí)間敏感的應(yīng)用,需要謹(jǐn)慎考慮:我們的產(chǎn)品、應(yīng)用能否接受這樣的響應(yīng)時(shí)間?
3、也許更高的成本
因?yàn)閛1模型在推理過(guò)程中,會(huì)消耗大量的推理token,很多人稱之為OpenAI的扣費(fèi)陷阱。當(dāng)然,o1模型也帶來(lái)一個(gè)新的優(yōu)勢(shì),就是我們可以不用傳few shot案例,也許可以減少一些token的輸入,但是這一增一減,到底是增加了成本還是降低了成本,目前還不是特別明朗,推薦大家多多測(cè)試后,再做定論。
4、新的提示詞結(jié)構(gòu)
o1模型因?yàn)樵O(shè)計(jì)的原因,帶來(lái)了一些新的提示詞范式,過(guò)去的提示詞在 o1模型上不一定適用了。
比如過(guò)去的 few shot 或者 COT 提示詞,根據(jù)官方建議,這些技巧不僅不能帶來(lái)收益,還會(huì)降低效果。
所以,綜上,是否要使用o1模型來(lái)替換我們現(xiàn)有應(yīng)用的模型,我們需要謹(jǐn)慎對(duì)待,需要做充分的測(cè)試評(píng)估。這與過(guò)去的模型參數(shù)增加不一樣,這次是一個(gè)范式的變化。
雖然有這么多不利因素,但是有利因素也是顯而易見:推理能力增強(qiáng)了,過(guò)去做不到、或者無(wú)法實(shí)現(xiàn)的應(yīng)用,也許會(huì)成為可能。
會(huì)有新的一輪大模型風(fēng)潮嗎?
過(guò)去,ChatGPT的出現(xiàn),隨之而來(lái)的是合成數(shù)據(jù)帶來(lái)了一大批新的模型出現(xiàn)。那么這次,還會(huì)是這樣嗎?
不敢做非常確定性的答復(fù),但是我想這次可能有點(diǎn)不一樣。
這次帶來(lái)的合成數(shù)據(jù)不會(huì)那么容易,按照OpenAI官方文檔,推理token是不可見的,所以至少推理token大家應(yīng)該是拿不到的。那么,后續(xù)的合成數(shù)據(jù)訓(xùn)練新模型這條路看上去被堵死了。
但是,事情也不是絕對(duì)的。一件事情最難的部分往往是“證明這件事可行”,所以O(shè)penAI證明了這個(gè)路徑是可行的,也讓大家關(guān)注到了這個(gè)新的路徑,即使沒(méi)有合成數(shù)據(jù)的幫助,但是也會(huì)有其他辦法來(lái)貢獻(xiàn)這些數(shù)據(jù)。期待開源社區(qū)進(jìn)一步的表現(xiàn)。
本文轉(zhuǎn)載自??大語(yǔ)言模型論文跟蹤??,作者: HuggingAGI ????
