GPT-5降臨,代號獵戶座?OpenAI疑用草莓訓(xùn)練,數(shù)學(xué)推理暴漲超越所有模型
OpenAI的下一代旗艦大語言模型,要來了?
據(jù)悉,新模型代號Orion(獵戶座),就是能超越GPT-4的下一代模型。
而獵戶座的預(yù)訓(xùn)練數(shù)據(jù),正是由草莓模型生成的。
而草莓模型驅(qū)動的聊天機(jī)器人,很可能就會在今年秋天上線!
關(guān)于OpenAI的草莓,外媒The Information最近又挖到了新的細(xì)節(jié)。
圖片
根據(jù)The Information的信息,網(wǎng)友推測:「GPT-4+草莓」會在秋季推出,之后上線的繼任者「獵戶座」可能就是GPT-5。
圖片
圖片
由于大概率要避開11月,因此,獵戶座的發(fā)布時間要么在之前要么是在12月。
圖片
甚至,AI大V、Hallid.ai聯(lián)創(chuàng)「indigo」提出了一個大膽的猜測:獵戶座或許不是GPT-5,而是GPT-6。
圖片
AI大V「Chubby」表示附議。
圖片
最后,Chubby激動地表示:所有人都覺得AI的發(fā)展正在放緩?并不是。在大公司,廚房里的東西正在沸騰!
圖片
網(wǎng)友們紛紛表示:「我們正在見證一種超越我們自己思想的誕生」。
圖片
打開Q*之門,一切模型憑此迭代。
圖片
圖片
有人擔(dān)心,如果GPT-5控制整個互聯(lián)網(wǎng),人類會從此迷失。
圖片
所以,獵戶座到底是GPT-5還是GPT-6呢?網(wǎng)友們各持己見。
但有人猜測,我們目前還沒有足夠的算力來達(dá)到GPT-5,更不用說GPT-6了。
圖片
透個底,讓美國政府安心
圖片
今年夏天,Sam Altman的團(tuán)隊已經(jīng)向美國國家安全官員展示了這項技術(shù)。
在安全問題日益敏感的情況下,OpenAI的做法也算給大家打了個樣。
如果政府官員覺得這項AI不安全怎么辦?那就給他們展示一下。
這次演示,就是OpenAI讓政策制定者覺得更透明的努力的一部分。畢竟,如果他們感覺到受到這項技術(shù)的威脅了,很可能就會給公司帶來麻煩。
圖片
現(xiàn)在,OpenAI的安全團(tuán)隊已經(jīng)出走,憤怒的前員工在網(wǎng)上大肆爆料,這種時候,對政府官員更加透明的做法,就顯得尤為重要。
The Information表示,這次演示還可能另有目的:跟政府隊員就如何保護(hù)技術(shù)進(jìn)行對話,以防止美國的AI技術(shù)被他國竊取。
說不定,還可以借此機(jī)會攻擊Meta一波,因為他們的AI是開放權(quán)重的,其他國家想要獲取,是非常容易的事。
總之,未來幾年內(nèi),AI開發(fā)者應(yīng)該會經(jīng)常出現(xiàn)在舊金山和華盛頓之間的航線上了,因為他們時不時就需要跟政府官員來往一下。
草莓:數(shù)學(xué)提升,能解字謎
一個月前路透社曾報道,OpenAI內(nèi)部測試了一種AI,在MATH基準(zhǔn)上得分超過了90%。
據(jù)猜測,這個模型很可能就是草莓。
如今的傳言是,今年秋天OpenAI研究者會推出代號為草莓的新AI(也就是之前的Q*),或許會聊天到ChatGPT之類的聊天機(jī)器人中。
它能做到目前的聊天機(jī)器人無法做到的很多事情,比如解決未曾遇到的數(shù)學(xué)問題,還能解決編程難題。
圖片
在獲得額外「思考」時間后,草莓模型還可以回答更主觀的問題,比如產(chǎn)品的營銷策略。
據(jù)悉,在語言任務(wù)上,草莓表現(xiàn)出了強(qiáng)大的能力。比如OpenAI的一位員工曾向同事演示了草莓成功解決《紐約時報》的Connections——復(fù)雜的文字謎題。
圖片
OpenAI在LLM和會話AI領(lǐng)域的領(lǐng)先地位,一直在遭受沖擊,因此OpenAI只能對外不時放出點草莓的消息,提升一下自己的存在感。
另外,據(jù)說草莓的技術(shù)已經(jīng)顯示出了智能體的能力。
草莓模型似乎能夠自主瀏覽網(wǎng)絡(luò),像人類研究人員一樣,獨立上網(wǎng)、進(jìn)行深度研究。
它不僅能生成答案,還能規(guī)劃、執(zhí)行一系列復(fù)雜任務(wù),還能收集信息。
與之類似的,還有斯坦福的Quiet-STaR。
就像人類會在說話或?qū)懽髑皶O聛硭伎甲约旱南敕ㄒ粯?,Quiet-STaR可以訓(xùn)練LLM去生成在復(fù)雜推理問題中采取步驟的內(nèi)部「思考」,從而做出更好的決策。
圖片
論文地址:https://arxiv.org/abs/2403.09629
眼下,OpenAI的業(yè)務(wù)正以驚人的速度增長:跟去年相比,今年它向企業(yè)銷售LLM和ChatGPT訂閱的收入大約增加了三倍,達(dá)到了每月2.83億美元,盡管公司每月的虧損可能高于此。
目前,OpenAI的私人估值為860億美元。
Sam Altman還希望為公司籌集更多資金,找到減少損失的方法。
自2019年以來,OpenAI已經(jīng)從微軟籌集了約130億美元,與這家企業(yè)軟件巨頭的協(xié)議,會持續(xù)到2030年。
合作條款可能會發(fā)生變化,包括OpenAI向微軟支付租用云服務(wù)器以開發(fā)AI的方式。
云服務(wù)器,是OpenAI最大的成本。
OpenAI的新希望:Orion(獵戶座)
但說到底,OpenAI的前景終究還是依賴正在開發(fā)的新旗艦——Orion。
圖片
有人能解釋一下為什么OpenAI、谷歌和亞馬遜一直用希臘神話來命名他們的模型嗎?
去年初推出后,GPT-4已經(jīng)被各家趕超得差不多了,現(xiàn)在GPT-4級的模型,可以說是各家人手一個。
有人猜,OpenAI可能會推出一個比原始草莓模型更小、更簡化的模型,也就是蒸餾版。
這個版本被寄望于提升GPT-4和ChatGPT性能,目的是保持和更大模型相同的性能水平,而且更易于操作,成本更低。
另外,還有知情人士透露,OpenAI還在用更大的草莓版本,為Orion的訓(xùn)練生成數(shù)據(jù)。
這種人工合成數(shù)據(jù),意味著草莓能幫助OpenAI克服獲取高質(zhì)量數(shù)據(jù)的限制,從而可以從現(xiàn)實世界數(shù)據(jù)(比如從互聯(lián)網(wǎng)獲取的文本或圖像)中訓(xùn)練新模型。
研究人員表示,使用草莓可以幫助Orion減少幻覺的產(chǎn)生。
這是因為,AI模型是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的,所以它們看到的復(fù)雜推理的正確示例越多,就越好。
對此,智能體初創(chuàng)公司Minion AI的CEO兼GitHub Copilot前首席架構(gòu)師Alex Graveley給予了高度厚望。
「想象一個沒有幻覺的模型,一個你問它邏輯難題、它第一次就答對了的模型。」
「訓(xùn)練數(shù)據(jù)中存在較少的歧義,因此它的猜測更少?!?/span>
The Information猜測,草莓改進(jìn)的推理能力,可能會整合到ChatGPT中。這些答案可能會更準(zhǔn)確,但也可能更慢。
因此,草莓可能并不適合需要即時即時響應(yīng)的應(yīng)用。而在GitHub中修復(fù)非關(guān)鍵編碼錯誤,則是理想的選擇。
或許,以后的ChatGPT用戶,可以根據(jù)請求的時間敏感性來切換草莓模型。
Sam Altman在五月的一次活動中曾表示:「我們感覺,為下一個模型準(zhǔn)備的數(shù)據(jù)已經(jīng)足夠」。
這個模型,很可能指的是就Orion。Altman表示:「我們進(jìn)行了各種實驗,包括生成合成數(shù)據(jù)?!?/span>
解決復(fù)雜數(shù)學(xué)問題:有前景的應(yīng)用
如果說目前AI最有前景的應(yīng)用,那解決復(fù)雜數(shù)學(xué)問題,必然是其中一個了。
畢竟,現(xiàn)有的AI在數(shù)學(xué)密集的領(lǐng)域如航空航天和結(jié)構(gòu)工程中,表現(xiàn)實在不佳。
各種LLM在回答數(shù)學(xué)問題時,往往會給出各種讓人啼笑皆非的答案。
而且,數(shù)學(xué)推理能力的提升還能幫助AI模型更好地推理會話查詢,比如用戶的服務(wù)請求。
谷歌和一些初創(chuàng)公司,也在這方面發(fā)力。
上個月,谷歌DeepMind開發(fā)的AI,已經(jīng)能在國際數(shù)學(xué)奧林匹克競賽中擊敗大多數(shù)人類參賽者。
圖片
OpenAI的另一大競爭對手Anthropic祭出的最新模型,也能編寫更復(fù)雜的軟件代碼,還能回答有關(guān)圖表和圖形的問題,這些都要歸功于它推理能力的改進(jìn)。
圖片
還有一些初創(chuàng)公司為了提高模型的推理能力,采用了一種廉價的技巧,將問題分解為更小的步驟,盡管這些方法速度慢且成本高昂。
無論Strawberry是否會作為產(chǎn)品推出,人們對Orion的期望都不會低了,因為OpenAI會力求繼續(xù)保持領(lǐng)先地位,同時還要保證顯著的的收入增長。
OpenAI的領(lǐng)先者優(yōu)勢,已經(jīng)不明顯了。
雖然在5月宣布了「Her」的版本,但谷歌卻搶先推出了AI驅(qū)動的語音助手,后者也足夠靈活,還能處理用戶的打斷,和突然變化的話題。
而Lmsys Chatbot Arena等大模型排行榜上,谷歌、xAI、Anthropic和Meta的模型也都在趕上OpenAI的步伐。
圖片
Ilya看到了什么?
值得一提的是,「草莓之父」,其實就是已經(jīng)離職了的OpenAI的首席科學(xué)家Ilya Sutskever。
幾年前,Ilya啟動了一個項目,在研究過程中,誕生了草莓。
而在Ilya離職之前,OpenAI的研究人員Jakub Pachocki和Szymon Sidor,就已經(jīng)在Ilya的工作基礎(chǔ)上開發(fā)了一個新的數(shù)學(xué)求解模型Q*,這讓不少關(guān)注AI安全的研究人員感到擔(dān)憂。
另外,在去年Q*的前期準(zhǔn)備中,OpenAI研究人員開發(fā)了一種被稱為「測試時計算」的概念變體,目的是提升LLM的問題解決能力。
這樣,LLM就會花更多時間考慮被要求執(zhí)行的命令,或問題的各個部分。
當(dāng)時,Ilya發(fā)表了一篇與這項工作相關(guān)的博客。
圖片
博客地址:https://openai.com/index/improving-mathematical-reasoning-with-process-supervision/
在博客中,模型解決了數(shù)個有難度的數(shù)學(xué)問題。
比如在這道有挑戰(zhàn)性的三角函數(shù)題中,需要連續(xù)應(yīng)用幾個并不明顯的等式。
圖片
圖片
在這道題,GPT-4成功執(zhí)行了一系列復(fù)雜的多項式分解。
圖片
步驟5中使用的Sophie-Germain恒等式是重要的一步,可以被認(rèn)為極有洞察力。
圖片
在這道題的步驟7和8中,GPT-4開始執(zhí)行猜測和檢查。
圖片
這也是模型可能產(chǎn)生幻覺的常見情況,LLM會聲稱某個特定的猜測是成功的,但實際上并不成功。
在這種情況下,獎勵模型會驗證每個步驟,并確定思路是否正確。
圖片
在最后這道題中,模型成功地應(yīng)用了多個三角恒等式,來簡化了表達(dá)式。
圖片
圖片
或許,我們能從中窺見草莓和Orion的端倪。