在GPT-5備受期待的同時,OpenAI發(fā)布了一種先進的語言模型,它可以在認真思考后做出反應(yīng),具備與博士生相當(dāng)?shù)闹悄?。這種改進版模型向前邁出了一大步,提供了實用的解決方案,而不是遺漏指令或產(chǎn)生幻覺。
我們在這篇博文中將介紹OpenAI的o1推理模型及其特別之處和值得注意的方面。然后,我們將使用ChatGPT訪問o1預(yù)覽版和o1迷你版模型來解決復(fù)雜的財務(wù)問題,并構(gòu)建一個基于Julia的網(wǎng)頁抓取工具。最后,我們將構(gòu)建一個從數(shù)據(jù)攝取到模型部署的端到端機器學(xué)習(xí)項目,這一切都使用OpenAI o1預(yù)覽版模型來完成。
OpenAI o1推理模型簡介
OpenAI的o1推理模型旨在像人類一樣思考問題,花時間仔細考慮后做出反應(yīng)。在處理物理、化學(xué)和生物學(xué)方面頗有挑戰(zhàn)性的任務(wù)時,o1模型表現(xiàn)出來的智能與博士生相當(dāng)。此外,它擅長處理數(shù)學(xué)和編碼任務(wù),在國際數(shù)學(xué)奧林匹克資格賽中取得了83%的成功率,在全球編程比賽Codeforces中排名第89位。
目前,該推理模型有o1預(yù)覽版和o1迷你版兩個版本。o1預(yù)覽版是個推理模型,用于解決眾多領(lǐng)域的難題,而o1迷你版是一種更快速、更經(jīng)濟高效的推理模型,尤其擅長處理編碼、數(shù)學(xué)和科學(xué)任務(wù)。
這兩種模型可以通過ChatGPT Pro訂閱和You.com來訪問,還可以通過OpenAI平臺上面向tier 5組織的API來獲得。
在ChatGPT中使用OpenAI 01模型
每個訂閱ChatGPT Plus的用戶都可以通過從左上角下拉菜單更改語言模型來訪問o1模型。
我們在本節(jié)將先嘗試這種推理模型的高級版本o1預(yù)覽版來制定財務(wù)計劃。然后,我們將使用這種模型更快速、更小巧的o1迷你版,用Julia語言創(chuàng)建自己的網(wǎng)頁抓取工具。
OpenAI o1預(yù)覽版
不妨使用o1預(yù)覽版模型來幫助我靠2萬美元的儲蓄賬戶成為百萬富翁。我還要求它提供計算和逐步解釋,以確定我達到100萬美元所需要的時間。
點擊模型“下拉”菜單,選擇“o1預(yù)覽版”,然后在信息輸入框中輸入以下提示。
提示:“我的儲蓄賬戶里有2萬美元,每年獲得4%的利潤,每年支付兩次。你能告訴我要多久我才能成為百萬富翁嗎?還有,你能像給一個沒受過教育的人解釋數(shù)學(xué)那樣一步一步地解釋一下嗎?”
o1預(yù)覽版模型使用數(shù)學(xué)公式和計算進行了詳細的分析,為我們提供了結(jié)果總結(jié)。這種類型的響應(yīng)不是由GPT-4o或市面上的任何其他語言模型所能生成的。它很全面,并嚴格遵循提示。
在第9步,它給我們提供了一個結(jié)果:如果我完全依靠儲蓄賬戶,我需要98年才能成為百萬富翁。
結(jié)果:
Step 9: Interpreting the Result
- Time Required: Approximately 98.73 years.
So, it will take you about 98 years and 9 months for your $20,000 to grow into $1,000,000 at a 4% annual interest rate compounded twice a year.
要查看o1預(yù)覽版如何考慮解決這個問題,請點擊響應(yīng)上的下拉按鈕。
在本文示例中,點擊“Thought for 22 seconds”將顯示語言模型生成響應(yīng)所采取的全部步驟。
GPT-4o vs o1預(yù)覽版
不妨通過提供同樣的提示將其與GPT- 4o模型進行比較。
GPT-4o模型在生成結(jié)果時相當(dāng)緩慢。就速度而言,它幾乎和o1預(yù)覽版一樣慢。每種模型處理問題的策略大不相同。o1預(yù)覽版展示了更多的細節(jié)和數(shù)學(xué)公式,并像向?qū)W生解釋一樣進行了解釋,而GPT-4o忽略了提示的最后一部分,直接開始求解,而不是解釋每一步。
OpenAI o1迷你版
o1迷你版速度很快,可用于處理編碼問題和簡單的數(shù)學(xué)問題。我們讓o1迷你版使用Julia創(chuàng)建一個網(wǎng)頁抓取工具,為其提供了額外的說明。
提示:“使用Julia語言從頭開始構(gòu)建網(wǎng)頁抓取工具。
請確保你已經(jīng)添加了文檔字符串和注釋,創(chuàng)建了多個文件,使用了繼承,創(chuàng)建了單元測試文件,并提供了介紹如何使用它的說明文檔?!?/p>
它花了近15秒的時間來生成響應(yīng),思考時間為2秒,而o1預(yù)覽版模型用時22秒。
我已經(jīng)用源文件、單元測試文件、自述文件和“project.toml”文件創(chuàng)建了一個適當(dāng)?shù)捻椖?。這些模型如何變得更完善給我留下了深刻印象。我肯定會將它用于自己的編碼項目中,也會為我的教程創(chuàng)建結(jié)構(gòu)。
GPT-4o vs o1迷你版
GPT- 4o令人失望。它遺漏了提示中的許多指令,開始處理泛泛的項目。自述文件只有一個標(biāo)題,所有其他文件都有問題,使用指南不完整。簡而言之,這是一次糟糕的嘗試。如果我不得不使用GPT-4o完成編碼項目,我將自行編碼和創(chuàng)建說明文檔。
用OpenAI o1預(yù)覽版模型構(gòu)建機器學(xué)習(xí)項目
這是我最喜歡的部分,我將要求o1預(yù)覽版模型為我構(gòu)建一個端到端機器學(xué)習(xí)項目。GPT- 4o和Claude 3.5模型都失敗了,因為面對有太多指令的復(fù)雜項目,它們束手無策。
在本例中,我們要求它使用Python創(chuàng)建一個Reddit審核應(yīng)用程序。我們?yōu)樗峁┝祟~外的指令,從數(shù)據(jù)攝取到建議免費部署推理API。
提示:“創(chuàng)建一個Python Reddit審核應(yīng)用程序,它在看到Reddit帖子后預(yù)測它們是否對社區(qū)有害。
請確保項目包括以下步驟:
- 使用網(wǎng)頁抓取從reddit r/learnmachinelearning收集數(shù)據(jù)。
- 使用Scikit-learn處理數(shù)據(jù)集。
- 使用來自Reddit的測試數(shù)據(jù)集訓(xùn)練機器學(xué)習(xí)模型。
- 保存模型,并執(zhí)行模型評估。
- 創(chuàng)建用于模型推理的FastAPI應(yīng)用程序。
- 添加用于創(chuàng)建用戶界面的Jinja模板。
- 提供將應(yīng)用程序免費部署到云端的說明?!?/li>
正如我們所看到,它決定在哪里抓取網(wǎng)頁或使用Reddit數(shù)據(jù)攝取工具。就像人一樣,它考慮了工具對項目是否可行。
我們已收到了所有代碼文件以及關(guān)于如何組裝它們以便處理、訓(xùn)練和構(gòu)建API的說明。它甚至為我們提供了如何使用Railway應(yīng)用程序免費部署應(yīng)用程序的說明。
在我自行嘗試代碼之前,不妨讓ChatGPT為我們測試一下。
我們收到一條消息,顯示它不能執(zhí)行代碼。
o1模型現(xiàn)在還處在測試階段。將來,OpenAI會推出能夠使用CSV文件、圖像、音頻數(shù)據(jù)等內(nèi)容的Python解釋器?,F(xiàn)在它只是一個文本生成模型,可以像學(xué)者或?qū)I(yè)人士一樣思考。
結(jié)語
事實證明,o1推理模型改變了人工智能界的游戲規(guī)則。除了ChatGPT外,我一直使用You.com上的o1預(yù)覽版模型,用起來很流暢。我愛不釋手。該模型速度快,還提供了介紹如何解決復(fù)雜問題或自行構(gòu)建數(shù)據(jù)科學(xué)項目的詳細地圖。
今后對提示工程師的需求會再度上升,因為現(xiàn)在我們只需要專注于給出指示,o1模型將幫助我們解決工作中的任何問題。
我們在這篇博文中介紹了o1模型的獨特功能,并強調(diào)了它較之GPT-4o等以前版本所具有的優(yōu)勢。這種演進清楚地表明,未來基于AI的解決方案將更直觀、更有影響力。
原文標(biāo)題:Getting Started with OpenAI o1 Reasoning Models,作者:Abid Ali Awan