自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

67個(gè)主題,11528 個(gè)問(wèn)題,全新中文大模型多任務(wù)基準(zhǔn)CMMLU發(fā)布

人工智能 新聞
如何評(píng)估大模型(LLM)的語(yǔ)言能力和知識(shí)儲(chǔ)備一直備受學(xué)術(shù)界和工業(yè)界的關(guān)注。

MBZUAI,上海交通大學(xué),微軟亞洲研究院合作完成了一個(gè)全面的中文大模型基準(zhǔn)——CMMLU。

它涵蓋了 67 個(gè)主題,涉及自然科學(xué)、社會(huì)科學(xué)、工程、人文、以及常識(shí)等,可以全面地評(píng)估大模型在中文知識(shí)儲(chǔ)備和語(yǔ)言理解上的能力。他們測(cè)試了近 20 個(gè)先進(jìn)的大模型包括最新的 GPT4,ChatGLM2 和 Baichuan-7B 等,發(fā)現(xiàn)大多數(shù)現(xiàn)有模型的難以達(dá)到 50%準(zhǔn)確率,而隨機(jī)準(zhǔn)確率為 25%。

圖片圖片

  • 論文地址:https://arxiv.org/abs/2306.09212
  • 數(shù)據(jù)和評(píng)估代碼:https://github.com/haonan-li/CMMLU

本文所提出的 CMMLU,這是一個(gè)全新全面的中文評(píng)估數(shù)據(jù)集,旨在專(zhuān)門(mén)評(píng)估 LLM 在中文語(yǔ)言和文化背景下的高級(jí)知識(shí)和推理能力。

CMMLU 涵蓋了 67 個(gè)主題(如圖 1 所示),從小學(xué)到大學(xué)或?qū)I(yè)水平。包括自然科學(xué),以及人文和社會(huì)科學(xué)領(lǐng)域的學(xué)科,更包含了許多具有中國(guó)特色的內(nèi)容,比如 「中國(guó)飲食文化」,「名族學(xué)」,「中國(guó)駕駛規(guī)則」等等。研究團(tuán)隊(duì)已完全公開(kāi)了數(shù)據(jù),社區(qū)可以自由方便地利用和評(píng)估他們的模型在是否適用于以中國(guó)為核心的中文人群。完整的學(xué)科列表、每個(gè)學(xué)科測(cè)試的概念數(shù)量以及問(wèn)題和答案長(zhǎng)度的統(tǒng)計(jì)信息均在論文中提供。

圖片圖片

為了更深入地了解 LLM 處理中文知識(shí)的能力,研究進(jìn)行了全面的分析實(shí)驗(yàn)。研究首先研究模型在各個(gè)學(xué)科上的表現(xiàn)。所有模型在不同學(xué)科上的表現(xiàn)存在不平衡,人文社科學(xué)科得分相對(duì)較高,而中國(guó)特定主題和自然科學(xué)得分較低。為了進(jìn)一步研究這個(gè)問(wèn)題,研究探索了思路鏈提示詞(Chain-of-Thought)和少樣本示例(Few-shot)對(duì)于幫助模型理解任務(wù)和提高推理能力的有效性。此外,團(tuán)隊(duì)研究了模型大小對(duì)性能的影響,分析了問(wèn)題長(zhǎng)度與難度之間的關(guān)系,并探索了現(xiàn)有語(yǔ)言模型尚未有效解決的兩種特定問(wèn)題類(lèi)型。

CMMLU 測(cè)試基準(zhǔn)

數(shù)據(jù)收集

CMMLU 數(shù)據(jù)集包含 11,528 個(gè)問(wèn)題,涵蓋了 67 個(gè)學(xué)科。每個(gè)學(xué)科至少有 105 個(gè)問(wèn)題,研究將其分 為包含 5 個(gè)問(wèn)題的訓(xùn)練樣本集(few-shot development set),以及包含超過(guò) 100 個(gè)問(wèn)題的測(cè)試集(test set)。

數(shù)據(jù)格式

數(shù)據(jù)集中的每個(gè)問(wèn)題都是一個(gè)包含 4 個(gè)選項(xiàng)的單選題,圖 2 是一個(gè)附加了提示的示例。對(duì)于數(shù)學(xué)公式、化學(xué)式和一些其他數(shù)學(xué)表達(dá)式,他們使用約一半的 Latex 和一半的純文本的混合方式,其中只有在一個(gè)表達(dá)式被廣泛使用且不易產(chǎn)生歧義時(shí),才允許使用純文本(由注釋者判斷)。例如,水的化學(xué)式可以寫(xiě)為純文本 「H2O」,或者使用 Latex 格式「 $H_{2}O$」。

實(shí)驗(yàn)

為了在中文語(yǔ)境下提供現(xiàn)有開(kāi)源 LLM 在語(yǔ)言理解方面的概覽,研究評(píng)估約 20 個(gè)不同規(guī)模、語(yǔ)言方向和階段(預(yù)訓(xùn)練或微調(diào))的先進(jìn) LLM,并且分析了它們?cè)谶@個(gè)以知識(shí)為中心的基準(zhǔn)測(cè)試上的性能,并研究了可能影響 LLM 性能的幾個(gè)因素。

實(shí)驗(yàn)設(shè)置

研究的目標(biāo)是評(píng)估 LLM 在預(yù)訓(xùn)練和 / 或微調(diào)過(guò)程中所利用的知識(shí)。對(duì)于開(kāi)源模型,研究遵循 MMLU 的方法獲取提示后的下一個(gè)標(biāo)記的概率,并在 A’、B’、C’和 D’中選擇概率最高的選項(xiàng)作為模型的選擇。對(duì)于 ChatGPT 等非開(kāi)源模型,研究生成輸出并使用一系列正則表達(dá)式提取模型的選擇。如果正則表達(dá)式?jīng)]有匹配到任何內(nèi)容,他們會(huì)隨機(jī)選擇 A’、B’、C’、D’中的一個(gè)選項(xiàng)作為答案,以進(jìn)行模型間的公平比較。研究對(duì)零樣本(不輸入示例)和少樣本(輸入少量示例)的設(shè)置都進(jìn)行了實(shí)驗(yàn)。

提示詞

研究使用短語(yǔ) 「以下是關(guān)于 [主題] 的單項(xiàng)選擇題,請(qǐng)直接給出正確答案的選項(xiàng)」引入每個(gè)問(wèn)題。對(duì)于零樣本評(píng)估,研究直接在提示后呈現(xiàn)問(wèn)題。對(duì)于少樣本評(píng)估,他們?cè)趩?wèn)題之前提供多達(dá) 5 個(gè)帶有答案的示例。提示以短語(yǔ)「答案是:」結(jié)尾,如圖 2 中的示例所示。如果帶有少樣本示例的文本長(zhǎng)度超過(guò)模型的最大長(zhǎng)度,他們會(huì)動(dòng)態(tài)刪除最長(zhǎng)的(按子標(biāo)記計(jì)算)示例。(最新榜單請(qǐng)看 github)

圖片圖片

主要結(jié)果

表格 1 顯示了在 five-shot 設(shè)置下一些模型的性能。可以看出:GPT4 是整體性能最佳的模型,準(zhǔn)確度達(dá)到 70.95%;在中文特定的 LLM 中,ChatGLM2-6B 模型規(guī)模最小卻展現(xiàn)出最佳的整體性能,Baichuan-7B 僅次于 ChatGLM2。

從學(xué)科類(lèi)型的角度來(lái)看,相對(duì)于 STEM 學(xué)科,所有模型在人文學(xué)科、社會(huì)科學(xué)和其他學(xué)科中表現(xiàn)出更好的性能,他們認(rèn)為這是由于 STEM 主題的固有難度所致。此外,雖然所有模型在中國(guó)特定類(lèi)別中的表現(xiàn)相對(duì)較弱,略微超過(guò)其在 STEM 學(xué)科中的表現(xiàn),但明顯落后于其他類(lèi)別。

圖片圖片

研究將中文模型 ChatGLM 與多語(yǔ)模型 ChatGPT 在每個(gè)學(xué)科上進(jìn)行了比較,并對(duì)學(xué)科進(jìn)行了分類(lèi),并在圖 3 中呈現(xiàn)了結(jié)果。具體的數(shù)值結(jié)果請(qǐng)?jiān)谡撐闹胁殚啞?/span>

從圖中可以看出,模型的性能并不平衡,雖然在某些學(xué)科(如世界歷史)表現(xiàn)出色,但在其他學(xué)科(如數(shù)學(xué))中表現(xiàn)較差。研究團(tuán)隊(duì)觀察到,對(duì)于 ChatGLM 和 ChatGPT 來(lái)說(shuō),古漢語(yǔ)和大學(xué)精算學(xué)是最具挑戰(zhàn)性的學(xué)科,其結(jié)果接近隨機(jī)。而法律與道德基礎(chǔ)則是兩個(gè)模型中最容易的學(xué)科之一。

在大多數(shù)情況下,ChatGPT 的性能明顯優(yōu)于 ChatGLM。比如說(shuō)對(duì)于機(jī)器學(xué)習(xí)和計(jì)算機(jī)安全,ChatGPT 的準(zhǔn)確度幾乎是 ChatGLM 的兩倍。然而,在中國(guó)特定類(lèi)別中,ChatGLM 的性能明顯接近 ChatGPT。它甚至在中國(guó)歷史和高中政治中的表現(xiàn)超過(guò)了 ChatGPT。他們認(rèn)為這是因?yàn)榕c ChatGPT 相比,ChatGLM 在特別是中國(guó)特定類(lèi)別中遇到了不同的數(shù)據(jù)來(lái)源。這些發(fā)現(xiàn)表明,為了適應(yīng)具有不同語(yǔ)言背景的用戶,找到適合的數(shù)據(jù)來(lái)源對(duì)于多語(yǔ)種 LLM 非常重要。

分析

為了全面了解 LLM 在不同條件下的性能,該研究探究了三個(gè)可能提升模型性能的因素和三個(gè)可能 降低模型性能的因素。對(duì)于大多數(shù)分析,他們使用了前 3 個(gè)多語(yǔ)種模型:ChatGPT、Falcon-40B、LLaMA-65B,以及前 2 個(gè)中文模型:ChatGLM-6B 和 BatGPT-15B。

圖片

 (具體分析細(xì)節(jié)請(qǐng)參看論文)

(1) 使用逐步思考的提示詞:

研究將提示從 「請(qǐng)直接給出正確答案的選項(xiàng)」修改為 「逐步分析并選出正確答案」。結(jié)果呈現(xiàn)在表格 2 中,所有子類(lèi)別的細(xì)分結(jié)果請(qǐng)查閱論文。

圖片圖片

研究發(fā)現(xiàn),對(duì)于沒(méi)有進(jìn)行微調(diào)的模型(LLaMA 和 Falcon),使用逐步思考的提示并沒(méi)有 明顯提高 STEM 和整體準(zhǔn)確度。而對(duì)于進(jìn)行了微調(diào)的模型(在表格 2 的第一部分),中文導(dǎo)向的模型(ChatGLM 和 BatGPT)的整體性能下降了約 3%,ChatGPT 的性能也略微下降了 0.2%。這些結(jié)果表明,逐步思考的提示確實(shí)有助于這些模型回答與 STEM 相關(guān)的問(wèn)題。

(2) 增加輸入示例的數(shù)量: 

圖 4 展示了使用不同模型在不同數(shù)量少樣本示例的平均準(zhǔn)確率。明顯可以看出,當(dāng)提供一些示例時(shí),大多數(shù)模型的性能有所提高。盡管隨著示例數(shù)量的增加可能會(huì)出現(xiàn)波動(dòng),但整體趨勢(shì)顯示出性能的提升。然而,對(duì)于 ChatGLM 和 BLOOMZ 模型,0-shot 設(shè)置的性能優(yōu)于少樣本設(shè)置。研究團(tuán)隊(duì)推測(cè)這是因?yàn)檫@些模型已經(jīng)通過(guò)預(yù)訓(xùn)練或微調(diào)過(guò)程廣泛利用了類(lèi)似的問(wèn)題和答案對(duì),已經(jīng)具備了全面理解問(wèn)題的能力,不需要示例的支持 [3]。

(3) 在同一模型系列中使用更大尺寸的模型:

圖片圖片

研究使用 LLaMA 系列模型的四個(gè)不同規(guī)模進(jìn)行了考察:7B、13B(訓(xùn)練于 1.0T tokens)、30B、65B(訓(xùn)練于 1.4T tokens)。這些模型的 0-shot 和 5-shot 設(shè)置的整體準(zhǔn)確率如圖 5 所示。從結(jié)果中,研究團(tuán)隊(duì)觀察到隨著模型規(guī)模近似翻倍,準(zhǔn)確率穩(wěn)定增加約 5 個(gè)百分點(diǎn)。是否有可能擁有 500B 參數(shù)的 LLaMA 模型可以達(dá)到與 ChatGPT 相當(dāng)?shù)男阅芩??而最近的研究表明,具有更少參?shù)但使用高質(zhì)量訓(xùn)練數(shù)據(jù)的模型可以達(dá)到與一些更大模型(Falcon-40B 對(duì)比 LLaMA-65B)相當(dāng)甚至更好的結(jié)果 [1]。如何高效地進(jìn)一步提升 LLM 的性能仍然是一個(gè)未解決的問(wèn)題。

圖片

(4) 長(zhǎng)度較長(zhǎng)的問(wèn)題: 

研究將模型的真實(shí)標(biāo)簽置信度(四個(gè)選項(xiàng)中的 softmax)視為問(wèn)題難度的估計(jì),并在圖 6 中比較了 Falcon-40B 的問(wèn)題難度與問(wèn)題長(zhǎng)度之間的關(guān)系。研究進(jìn)行了回歸分析,發(fā)現(xiàn)問(wèn)題長(zhǎng)度與真實(shí)標(biāo)簽置信度之間的相關(guān)性略微正相關(guān)。

圖片

 (5) 含有否定詞的問(wèn)題:

先前的研究指出語(yǔ)言模型可能在處理否定句時(shí)遇到困難 [2]。為了研究該問(wèn)題在中文語(yǔ)境中是否存在,本文比較了不同模型在包含否定詞和不包含否定詞的問(wèn)題子集上的性能。結(jié)果在表格 3 中展示。

所有模型在包含否定詞的問(wèn)題上的表現(xiàn)相對(duì)較差,強(qiáng)調(diào)了大型語(yǔ)言模型的這一常見(jiàn)限制。有趣的是,在沒(méi)有進(jìn)行微調(diào)的模型上,少樣本示例緩解了否定問(wèn)題的性能下降。這使研究團(tuán)隊(duì)推斷,這些模型(LLaMA-65B 和 Falcon-40B) 在預(yù)訓(xùn)練過(guò)程中已經(jīng)獲得了相當(dāng)多的知識(shí)。隨后的指導(dǎo)性微調(diào)或通過(guò)人類(lèi)反饋進(jìn)行強(qiáng)化學(xué)習(xí)可以幫助它們有效地解決否定問(wèn)題。

圖片圖片

(6) 含有子選項(xiàng)的問(wèn)題:

在各種中文考試中,有一種典型的問(wèn)題類(lèi)型稱為 「子選項(xiàng)問(wèn)題」。這些問(wèn)題包括一個(gè)主要陳述和多個(gè)子選項(xiàng),并詢問(wèn)子選項(xiàng)的數(shù)量、順序或選擇,需要模型具備更深層的推理和推斷能力(見(jiàn)圖 7 中的示例)。表格 4 顯示了評(píng)估結(jié)果。

所有這些 LLM 在子選項(xiàng)問(wèn)題上的表現(xiàn)較弱。ChatGPT 在子選項(xiàng)問(wèn)題上的性能顯著下降約 20%,而其他模型的下降范圍在 5% 至 15% 之間。對(duì)比多語(yǔ)言模型和中文定向模型,子選項(xiàng)問(wèn)題與其他問(wèn)題之間的性能差距較大超過(guò) 10%,后者性能差距在 10% 以下。這也許是因?yàn)橛?xùn)練數(shù)據(jù)中的這種情況在中文語(yǔ)言中更為常見(jiàn)。

結(jié)論

本文介紹了 CMMLU,這是一個(gè)具有開(kāi)創(chuàng)性意義的基準(zhǔn)測(cè)試,旨在評(píng)估中文多任務(wù)語(yǔ)言理解能 力。研究的實(shí)驗(yàn)發(fā)現(xiàn)揭示了現(xiàn)有大型語(yǔ)言模型中存在的改進(jìn)機(jī)會(huì)。通過(guò)廣泛的分析,研究確定了影響模型性能的幾個(gè)因素,并提出了改進(jìn) LLM 的可行方向。研究團(tuán)隊(duì)相信。他們的基準(zhǔn)數(shù)據(jù)集和分析洞察力將使研究人員能夠有效評(píng)估和設(shè)計(jì)中文 LLM。

更多的研究?jī)?nèi)容可以查閱原始論文。

責(zé)任編輯:張燕妮 來(lái)源: PaperWeekly
相關(guān)推薦

2024-11-04 12:48:12

2024-12-11 13:30:00

2013-08-13 14:39:29

多任務(wù)下載

2024-08-14 14:06:01

2024-02-02 21:53:58

AI訓(xùn)練

2022-09-28 15:34:06

機(jī)器學(xué)習(xí)語(yǔ)音識(shí)別Pytorch

2024-07-15 07:52:00

2022-12-12 10:35:00

2022-06-13 10:43:11

谷歌模型學(xué)者

2022-06-08 06:38:00

iPadOS 16SafariiCloud

2015-07-14 16:15:22

2023-12-08 07:48:42

GPT模型時(shí)間序列

2012-05-18 13:26:11

HTC

2025-01-22 16:57:32

字節(jié)跳動(dòng)豆包大模型

2023-07-05 09:57:11

2024-11-21 12:43:06

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2010-02-26 17:47:07

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)