GPT-5研發(fā)內(nèi)幕首曝!OpenAI首席研究官:AGI指日可待
GPT-5到哪一步了?
最近,GPT-4.1核心研究員Michelle Pokrass透露,構(gòu)建GPT-5的挑戰(zhàn)在于,在推理和聊天之間找到適當(dāng)?shù)钠胶狻?/span>
她表示,「o3會認(rèn)真思考,但并不適合進(jìn)行隨意聊天。GPT-4.1通過犧牲一些閑聊質(zhì)量來提升編碼能力」。
「現(xiàn)在,目標(biāo)是訓(xùn)練一個知道何時認(rèn)真思考、何時交談的模型」。
在長達(dá)50分鐘的最新對談中,Michelle首次對外介紹了更多關(guān)于GPT-4.1背后開發(fā)過程,以及RFT在產(chǎn)品中發(fā)揮的關(guān)鍵作用。
面對AGI的終極目標(biāo),OpenAI首席研究官表示,「AGI不僅僅是ChatGPT,還包含了很多東西」。
當(dāng)前,OpenAI面對的不僅僅是技術(shù)挑戰(zhàn),還得在信任、倫理上找到平衡。
GPT-4.1研發(fā)背后
Michelle Pokers表示,GPT 4.1的目標(biāo)是讓開發(fā)者在使用時感到愉快。
有時候,為了優(yōu)化基準(zhǔn)測試而調(diào)整模型,結(jié)果看起來不錯,實(shí)際使用卻發(fā)現(xiàn)一些問題,比如模型不遵循指令、格式怪異,或者上下文太短。
團(tuán)隊(duì)花了很多精力與用戶溝通,收集他們的意見,然后將這些反饋轉(zhuǎn)化為研究過程中真正能用得上的信息。
研究人員會觀察反饋中反復(fù)出現(xiàn)的主題,如指令遵循能力。
OpenAI內(nèi)部也使用了這些模型,所以能感覺到模型在哪些地方表現(xiàn)得不好。
綜合這些因素,團(tuán)隊(duì)可以確定哪些評估指標(biāo)是客戶真正需要重點(diǎn)優(yōu)化的。
OpenAI有一款電子郵件產(chǎn)品,在處理郵件時能獲得免費(fèi)的推理服務(wù)。作為交換,公司能利用這些數(shù)據(jù)。
Michelle真的很喜歡看到人們構(gòu)建的各種酷炫的用戶界面。
團(tuán)隊(duì)在模型開發(fā)的最后階段悄然加入了一項(xiàng)改進(jìn),就是大幅提升了UI和編碼能力。
她也看到喜歡人們使用Nano的情況,它小巧、便宜又快。
Nano背后的假設(shè)是,能否通過廉價且快速的模型來大幅推動AI的普及?答案是肯定的。人們對和成本延遲曲線上的各種地方都有需求。
在提升模型性能方面,GPT 4.1聚焦長上下文和指令跟隨。
長上下文處理能力是衡量模型在復(fù)雜任務(wù)中表現(xiàn)的重要指標(biāo),但生成有效的長上下文評估內(nèi)容頗具挑戰(zhàn)。
OpenAI致力于獲取更多真實(shí)世界的長上下文評估數(shù)據(jù),以提升模型在實(shí)際應(yīng)用中的表現(xiàn)。
在模型應(yīng)用中,模糊性處理是一大難題。
是向用戶進(jìn)一步詢問信息,還是依據(jù)已有信息進(jìn)行假設(shè)推理,這需要開發(fā)者能夠靈活調(diào)整模型的策略。
GPT 4.1在這方面做出改進(jìn),增強(qiáng)模型的可操控性,減少因模糊性導(dǎo)致的困擾。
API出現(xiàn)錯誤時,模型可能卡頓,影響使用體驗(yàn)。
OpenAI通過改進(jìn)訓(xùn)練算法和數(shù)據(jù)處理方式,讓模型面對錯誤和異常情況時持續(xù)穩(wěn)定運(yùn)行。
GPT 4.1在代碼編寫能力上有顯著提升,在局部代碼修改任務(wù)中表現(xiàn)出色,但涉及全局上下文和復(fù)雜代碼推理時,仍需優(yōu)化。
例如,處理文件間復(fù)雜技術(shù)細(xì)節(jié)傳遞的任務(wù)時,模型的理解和處理能力有待加強(qiáng)。
在前端編碼方面,團(tuán)隊(duì)不僅要求功能正確,還注重美觀和規(guī)范,符合工程師的專業(yè)審美。
RFT新突破
微調(diào)技術(shù)在GPT 4.1扮演著重要角色,RFT(強(qiáng)化微調(diào))的出現(xiàn),為模型能力拓展帶來新的可能。
與傳統(tǒng)的SFT相比,RFT在特定領(lǐng)域展現(xiàn)出強(qiáng)大的優(yōu)勢。
在芯片設(shè)計(jì)、生物學(xué)和藥物研發(fā)等領(lǐng)域,RFT的微調(diào)過程數(shù)據(jù)效率極高,僅需幾百個樣本就能取得良好效果。
在藥物研發(fā)中,通過RFT可以利用獨(dú)特且可驗(yàn)證的數(shù)據(jù),讓模型更精準(zhǔn)地模擬藥物作用機(jī)制,加速研發(fā)進(jìn)程。
芯片設(shè)計(jì)領(lǐng)域,RFT能幫助模型更好地理解和處理復(fù)雜的設(shè)計(jì)規(guī)則,優(yōu)化設(shè)計(jì)方案。
這些領(lǐng)域的共同特點(diǎn)是,雖然需要不斷探索,但實(shí)驗(yàn)結(jié)果容易驗(yàn)證,與RFT的優(yōu)勢高度契合。
OpenAI首席研究官:通往AGI之路
在外媒TechINAsia最新文章中,通過采訪OpenAI模型背后的人,向外界再次展示了OpenAI可預(yù)見的AGI的未來。
Mark Chen,這位華人研究科學(xué)家,在內(nèi)部模型研發(fā)中扮演著舉足輕重的作用。
在OpenAI的七年時間里,他從研究科學(xué)家逐步晉升為首席研究官,負(fù)責(zé)模型開發(fā)和公司整體研究工作。
他領(lǐng)導(dǎo)了多項(xiàng)里程碑式的項(xiàng)目——o1系推理模型、文本到圖像模型Dall-E,以及融入視覺感知的GPT-4。
從金融到AI,意外的職業(yè)轉(zhuǎn)折
Mark Chen的職業(yè)生涯,并非從一開始就鎖定AI。
在MIT獲得數(shù)學(xué)與計(jì)算機(jī)科學(xué)雙學(xué)位后,他原本的計(jì)劃是,繼續(xù)攻讀博士學(xué)位,成為一名教授。
然而,命運(yùn)的轉(zhuǎn)折點(diǎn)出現(xiàn)。
在計(jì)劃合作的教授創(chuàng)立了一家對沖基金后,他改變了方向,隨之加入了金融行業(yè)。
在這樣高頻交易的世界里,Mark Chen度過了6年。
他坦言,「這份工作在某些方面令人滿足,但在其他方面非常不滿足。你面對同樣的競爭對手,大家都在追求更快,但你感覺不到自己正在改變世界」。
2016年,谷歌AlphaGo在一場歷史性比賽中,擊敗了九段棋手李世石,其人類水平的表現(xiàn)甚至讓AI專家震驚。
受此啟發(fā),Mark Chen通過實(shí)現(xiàn)Deep-Q神經(jīng)網(wǎng)絡(luò)復(fù)刻AlphaGo。正是這一嘗試,讓他徹底迷上了AI。
盡管沒有博士學(xué)位,幸運(yùn)的是,他通過OpenAI的駐留計(jì)劃,幸運(yùn)地邁入了這一領(lǐng)域。
找到AGI最佳平衡
在談及AGI之時,Mark Chen表示,「我們采用非常廣泛的定義,它不僅是ChatGPT,還包括了其他東西」。
一直以來,OpenAI將AGI視為AI的圣杯,并制定了五級框架來實(shí)現(xiàn)這一目標(biāo)。
而現(xiàn)在,他們已經(jīng)到達(dá)了第三級,智能體AI(Agentic AI)——能自主執(zhí)行復(fù)雜任務(wù)和規(guī)劃。
Mark Chen介紹稱,OpenAI近期推出的兩款A(yù)I智能體產(chǎn)品,Deep Research和Operator尚處于早期階段。
Operator在未來,速度可以更快,軌跡可以更長,這些產(chǎn)品代表了OpenAI對智能體AI的雄心。
他還強(qiáng)調(diào),平衡短期產(chǎn)品發(fā)布與長期研究,將計(jì)算資源分配到OpenAI的整個項(xiàng)目組合中,是自己工作的核心,最終確保OpenAI在商業(yè)化與科學(xué)探索之間找到最佳平衡。
Mark Chen對OpenAI內(nèi)部算法的優(yōu)化充滿信心。
他表示,自家的推理模型在訓(xùn)練時,使用的數(shù)據(jù)遠(yuǎn)少于預(yù)訓(xùn)練模型,但通過更多計(jì)算資源實(shí)現(xiàn)了高效性能。
由此,OpenAI在效率上不遜于谷歌Gemini 2.5等競爭對手。
回應(yīng)開源
幾天前,奧特曼在一次會議上稱,預(yù)計(jì)今年夏天開源首個推理模型。
在采訪中,Mark Chen同樣透露,公司正計(jì)劃發(fā)布GPT-2以來首個開源語言模型。
他認(rèn)為,開源模型的優(yōu)勢在于推理能力和開發(fā)者對其進(jìn)行優(yōu)化,但也因安全措施較少,而存在濫用的風(fēng)險。
面對DeepSeek等AI模型強(qiáng)勢崛起,Chen顯得從容不迫。
他表示,在AI領(lǐng)域最大的危險,是反應(yīng)過度。OpenAI堅(jiān)信自己的路線圖,專于長期目標(biāo)而非短期市場噪音。
最后,Mark Chen還為想要進(jìn)入AI領(lǐng)域的年輕人提供了建議:「深入熟悉所有工具,永遠(yuǎn)保持好奇心」。
你玩的工具越多、越好奇,就越能理解其他人試圖推動的領(lǐng)域,以及未來的正確方向。你必須保持領(lǐng)先。
這是一個變化很快的領(lǐng)域。你看到的許多被探索的事物,都是未來的瞥見。