自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)學能力超ChatGPT,70B開源大模型火了:用AI微調AI,微軟全華班出品

人工智能
OpenAI的大模型(InstructGPT、GPT-4等)能夠取得巨大成功、去執(zhí)行各種復雜和多樣化的任務,一部分原因是使用了真實人類用戶生成的開放域指令數(shù)據進行了微調。

用AI生成的指令微調羊駝大模型,數(shù)學能力超ChatGPT——

微軟最新開源大模型WizardMath來了。

圖片

如下圖所示,經過GSM8k數(shù)據集測試,WizardMath數(shù)學能力直接擊敗了ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型——

并且是在參數(shù)只有700億,遠不及后三者的情況之下。

圖片

HuggingFace已上線3個在線可玩版本(分別為7B、13B和70B參數(shù)),各種數(shù)學題可以直接丟進去試一試。

比如解決下面這道四次多項式方程:

圖片

或者是一道簡單的微積分:

圖片

亦或者是稍微修改過的拉格朗日方程推導:

圖片

它都全部正確(過程也不需要等太久)。

有網友向作者表示:

效果真的很驚人,感謝你們對開源LLM的貢獻。

圖片

目前,相關代碼、復現(xiàn)方式以及論文也都開源或上線,GitHub短短幾天已攬獲4.8k標星。

圖片

那么,WizardMath究竟是如何做到的?

用AI生成的指令增強大模型能力

OpenAI的大模型(InstructGPT、GPT-4等)能夠取得巨大成功、去執(zhí)行各種復雜和多樣化的任務,一部分原因是使用了真實人類用戶生成的開放域指令數(shù)據進行了微調。

然而,不是誰都能像這家公司一樣獲得這樣的指令數(shù)據集。

一是因為整個注釋過程極其昂貴且耗時,二是人工難以創(chuàng)建出足夠比例的高難度指令。

因此,開發(fā)出一種成本相對較低的、大規(guī)模開放域指令自動生產方法,成為當下指令調優(yōu)語言模型的關鍵。

在此,作者將他們的方法命名為Evol Instruction。

它是一種利用AI來代替人類自動生成涵蓋各種難度級別開放域指令的新方法。

具體而言,Evol Instruction分為指令進化器和指令消除器。

其中指令進化器可通過深度進化(藍線)或廣度進化(紅線)兩種路徑,將簡單指令升級為更復雜的指令或創(chuàng)建一條全新指令。

具體執(zhí)行哪一條?隨機選擇就好。

圖片

其中,深度進化的具體“進化法”,則是通過五種類型的操作來完成,包括:

添加約束(add constraints)、深化(deepening)、具體化(concretizing)、增加推理步驟(increase reasoning steps)和使輸入復雜化(complicate input)。

由于所有指令均由AI完成,有時難免會出現(xiàn)錯誤。因此,指令消除器就是用于過濾失敗指令的。

以下是一個具體示例,該方法從“1+1=?”開始,最終通過以上步驟自動生成了相當多的新指令。

圖片

通過重復這一生成過程,最終我們就能得到足夠多的指令,然后將它們合并并隨機打亂,組成一個難度級別均勻分布的指令集,就可以對基礎大模型進行微調了。

在此,作者選擇Alpaca的訓練數(shù)據(僅由175條人工創(chuàng)建的種子指令生成)作為初始數(shù)據集,然后使用ChatGPT的API執(zhí)行了四個進化周期,最終獲得25萬條指令。

為了與Vicuna的70k真實用戶數(shù)據(ShareGPT)進行公平比較,作者從這25萬條數(shù)據中抽取了等量的樣本,訓練LLaMA 7B模型,最終得到WizardLM,結果WizardLM的性能明顯優(yōu)于Vicuna。

(Alpaca:斯坦福在LLaMa-7B基礎上微調出來的模型;Vicuna,UC伯克利在LLaMa-13B的基礎上微調得來)

此外,在更為復雜的測試指令下,人類更喜歡WizardLM的輸出,而非ChatGPT,這表明該方法可以顯著提高LLM處理復雜指令的能力。

基于此,作者又利用Evol Instruction生成了很多數(shù)學領域相關的指令,然后微調羊駝大模型,得到了WizardMath。

其效果如開頭所示,在GSM8k數(shù)據集上測得其數(shù)學能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型,位列第5名,僅次于GPT-4、Claud1.3和2.0,以及5400億參數(shù)的Flan-PaLM 2之后。

以此類推,作者還在羊駝之上得到了專攻代碼能力的WizardCoder,效果超越Claude和Bard(詳情可戳文末地址)。

圖片

團隊介紹

本文共9位作者,全華人。

一作有3位:

Can Xu,微軟亞洲互聯(lián)網工程院S+D NLP組高級應用科學家,之前曾在微軟小冰研究組和微軟亞研院從事聊天機器人系統(tǒng)工作。

Qingfeng Sun, Microsoft Research科學家,研究方向為自然語言處理和信息檢索,精通構建高效搜索系統(tǒng),為Microsoft Bing和Office 365貢獻了核心深度模型。

Kai Zheng,Microsoft Research科學家,研究方向為自然語言處理、搜索和推薦排名,同樣為Microsoft Bing和Office 365貢獻了核心深度模型。

圖片

通訊作者為姜大昕,微軟全球合伙人、副總裁、前微軟亞洲研究院首席科學家,在微軟工作16年有余、曾作為微軟必應搜索引擎和Cortana智能助手自然語言理解負責人,日前已被曝離職投身大模型創(chuàng)業(yè)。

另還有一位作者Jiazhan Feng,是北大學生,這篇合著論文是TA在微軟實習時產出的。

項目主頁: https://github.com/nlpxucan/WizardLM/tree/main/WizardMath。

論文地址:https://arxiv.org/abs/2304.12244(WizardLM)https://arxiv.org/abs/2306.08568(WizardCoder)。

責任編輯:姜華 來源: 量子位
相關推薦

2023-08-18 14:34:00

研究模型

2024-07-02 09:20:59

2025-01-10 14:15:02

2023-05-16 13:54:00

模型AI

2024-05-30 12:50:05

2023-05-12 13:14:59

ChatGPTAI工具

2023-08-21 10:20:03

開源模型

2023-03-30 13:30:21

2024-10-25 14:30:00

模型AI

2024-06-19 13:02:01

2025-01-17 13:53:11

AI大模型檢測工具

2025-03-11 09:35:00

2023-10-09 12:36:08

人工智能數(shù)據

2024-05-09 08:33:33

2024-09-09 08:50:00

2023-11-13 19:35:12

訓練數(shù)據

2025-01-08 09:30:00

Meta大模型訓練

2023-04-03 12:50:22

HuggingGPTAI模型

2023-11-16 12:36:00

AI數(shù)據
點贊
收藏

51CTO技術棧公眾號