自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

速看!AI大模型性能最新排名 原創(chuàng)

發(fā)布于 2024-7-19 07:35
瀏覽
0收藏

大家好,我是橙哥!今天我們來(lái)盤(pán)點(diǎn)一下主流AI大模型各方面性能的最新排名,分別從質(zhì)量、速度、價(jià)格、對(duì)話能力、推理能力、編碼、響應(yīng)時(shí)間等能力來(lái)進(jìn)行對(duì)比。

一、對(duì)話能力

Chatbot Arena是一個(gè)基于眾包的大型模型評(píng)測(cè)基準(zhǔn)。它為開(kāi)發(fā)者和研究者提供了一個(gè)平臺(tái),在這里可以發(fā)布、測(cè)試和比較各種類(lèi)型的聊天機(jī)器人,下面是根據(jù)Chatbot Arena的榜單排名。我們可以看出前三名是:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。

速看!AI大模型性能最新排名-AI.x社區(qū)

二、推理能力

MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)是一項(xiàng)綜合評(píng)估,MMLU 涵蓋基礎(chǔ)數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)和法律等 57 項(xiàng)任務(wù)。它需要模型來(lái)展示廣泛的知識(shí)基礎(chǔ)和解決問(wèn)題的能力,下面是AI大模型根據(jù)MMLU的最新排名。我們可以看出前三名是GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus

速看!AI大模型性能最新排名-AI.x社區(qū)

三、編程能力

HumanEval是一個(gè)用于評(píng)估代碼生成模型性能的數(shù)據(jù)集,包含164個(gè)編程問(wèn)題,每個(gè)問(wèn)題都包括一個(gè)函數(shù)簽名、文檔字符串(docstring)、函數(shù)體以及幾個(gè)單元測(cè)試。這些問(wèn)題涵蓋了語(yǔ)言理解、推理、算法和簡(jiǎn)單數(shù)學(xué)等方面。下面是根據(jù)HumanEval排名的最新榜單。前三名是:Claude 3.5 Sonnet、GPT-4o、GPT-4。

速看!AI大模型性能最新排名-AI.x社區(qū)

四、上下文窗口

上下文窗口指的是輸入和輸出標(biāo)記的最大組合數(shù)量。當(dāng)涉及到 RAG(檢索增強(qiáng)生成)和大模型的工作流時(shí),更大的上下文窗口變得非常重要,這些工作流通常需要對(duì)大量數(shù)據(jù)進(jìn)行推理和信息檢索。我們可以看到前三名是:Gemini 1.5 Pro、Claude 3.5 Sonnet、Claude 3 Opus。

速看!AI大模型性能最新排名-AI.x社區(qū)

五、輸入輸出的價(jià)格

每百萬(wàn)tokens的美元價(jià)格,排名越靠前越便宜。在這里我們可以看到國(guó)內(nèi)的DeepSeek大模型價(jià)格最低,價(jià)格最高的是GPT-4。

速看!AI大模型性能最新排名-AI.x社區(qū)

六、輸出速度

模型生成token時(shí)每秒輸出的token數(shù)量。 在這里我們可以看到輸出速度最快的是Llama 3(8B),輸出最慢的是DeepSeek-Coder-V2。

速看!AI大模型性能最新排名-AI.x社區(qū)

七、隨時(shí)間變化的輸出速度

我們從圖中可以看出Llama3 Instruct(8B)的輸出速度一直保持較高水平,不過(guò)最近有點(diǎn)下降。

速看!AI大模型性能最新排名-AI.x社區(qū)

八、延遲

延遲的定義為發(fā)送 API 請(qǐng)求后,接收到第一個(gè)token所需的時(shí)間。在圖中我們可以看到Mistral 7B的延遲最低,Claude 3 Opus的延遲最高。

速看!AI大模型性能最新排名-AI.x社區(qū)

九、隨時(shí)間變化的延遲

從圖中我們可以清晰地看出Claude 3 Opus的延遲一直較高,而Gemini 1.5 Pro的延遲有明顯的改善。其他大模型的延遲都較低。

速看!AI大模型性能最新排名-AI.x社區(qū)

十、總響應(yīng)時(shí)間

總響應(yīng)時(shí)間為接收 100 個(gè)tokens所需的時(shí)間。根據(jù)延遲(接收第一個(gè)token的時(shí)間)和輸出速度(每秒輸出token數(shù)量)估算得出。從圖中我們可以看出Llama3(8B)的總響應(yīng)時(shí)間最短,而DeepSeek-Coder-V2的總響應(yīng)時(shí)間最長(zhǎng)。

速看!AI大模型性能最新排名-AI.x社區(qū)

大模型各方面的性能對(duì)我們開(kāi)發(fā)AI產(chǎn)品的應(yīng)用場(chǎng)景至關(guān)重要,對(duì)大模型各方面的性能進(jìn)行測(cè)評(píng)可以幫助我們選擇合適的選擇合適的大模型和API提供商。無(wú)論是優(yōu)化質(zhì)量、提升速度、控制成本,還是需要特定的應(yīng)用能力,這些大模型都為我們提供了豐富的選擇。


本文轉(zhuǎn)載自公眾號(hào)AIGC開(kāi)發(fā)者,作者:阿橙AIGC

原文鏈接:??https://mp.weixin.qq.com/s/d0DNuxivD4YZSOSYEufVrA??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦