自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="vnemu"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

速看！AI大模型性能最新排名原創(chuàng)

開(kāi)發(fā)者阿橙

發(fā)布于 2024-7-19 07:35

瀏覽

0收藏

大家好，我是橙哥！今天我們來(lái)盤(pán)點(diǎn)一下主流AI大模型各方面性能的最新排名，分別從質(zhì)量、速度、價(jià)格、對(duì)話能力、推理能力、編碼、響應(yīng)時(shí)間等能力來(lái)進(jìn)行對(duì)比。

一、對(duì)話能力

Chatbot Arena是一個(gè)基于眾包的大型模型評(píng)測(cè)基準(zhǔn)。它為開(kāi)發(fā)者和研究者提供了一個(gè)平臺(tái)，在這里可以發(fā)布、測(cè)試和比較各種類(lèi)型的聊天機(jī)器人，下面是根據(jù)Chatbot Arena的榜單排名。我們可以看出前三名是：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。

速看！AI大模型性能最新排名-AI.x社區(qū)

二、推理能力

MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）是一項(xiàng)綜合評(píng)估，MMLU 涵蓋基礎(chǔ)數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)和法律等 57 項(xiàng)任務(wù)。它需要模型來(lái)展示廣泛的知識(shí)基礎(chǔ)和解決問(wèn)題的能力，下面是AI大模型根據(jù)MMLU的最新排名。我們可以看出前三名是GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus。

速看！AI大模型性能最新排名-AI.x社區(qū)

三、編程能力

HumanEval是一個(gè)用于評(píng)估代碼生成模型性能的數(shù)據(jù)集，包含164個(gè)編程問(wèn)題，每個(gè)問(wèn)題都包括一個(gè)函數(shù)簽名、文檔字符串（docstring）、函數(shù)體以及幾個(gè)單元測(cè)試。這些問(wèn)題涵蓋了語(yǔ)言理解、推理、算法和簡(jiǎn)單數(shù)學(xué)等方面。下面是根據(jù)HumanEval排名的最新榜單。前三名是：Claude 3.5 Sonnet、GPT-4o、GPT-4。

速看！AI大模型性能最新排名-AI.x社區(qū)

四、上下文窗口

上下文窗口指的是輸入和輸出標(biāo)記的最大組合數(shù)量。當(dāng)涉及到 RAG（檢索增強(qiáng)生成）和大模型的工作流時(shí)，更大的上下文窗口變得非常重要，這些工作流通常需要對(duì)大量數(shù)據(jù)進(jìn)行推理和信息檢索。我們可以看到前三名是：Gemini 1.5 Pro、Claude 3.5 Sonnet、Claude 3 Opus。

速看！AI大模型性能最新排名-AI.x社區(qū)

五、輸入輸出的價(jià)格

每百萬(wàn)tokens的美元價(jià)格，排名越靠前越便宜。在這里我們可以看到國(guó)內(nèi)的DeepSeek大模型價(jià)格最低，價(jià)格最高的是GPT-4。

速看！AI大模型性能最新排名-AI.x社區(qū)

六、輸出速度

模型生成token時(shí)每秒輸出的token數(shù)量。在這里我們可以看到輸出速度最快的是Llama 3（8B），輸出最慢的是DeepSeek-Coder-V2。

速看！AI大模型性能最新排名-AI.x社區(qū)

七、隨時(shí)間變化的輸出速度

我們從圖中可以看出Llama3 Instruct（8B）的輸出速度一直保持較高水平，不過(guò)最近有點(diǎn)下降。

速看！AI大模型性能最新排名-AI.x社區(qū)

八、延遲

延遲的定義為發(fā)送 API 請(qǐng)求后，接收到第一個(gè)token所需的時(shí)間。在圖中我們可以看到Mistral 7B的延遲最低，Claude 3 Opus的延遲最高。

速看！AI大模型性能最新排名-AI.x社區(qū)

九、隨時(shí)間變化的延遲

從圖中我們可以清晰地看出Claude 3 Opus的延遲一直較高，而Gemini 1.5 Pro的延遲有明顯的改善。其他大模型的延遲都較低。

速看！AI大模型性能最新排名-AI.x社區(qū)

十、總響應(yīng)時(shí)間

總響應(yīng)時(shí)間為接收 100 個(gè)tokens所需的時(shí)間。根據(jù)延遲（接收第一個(gè)token的時(shí)間）和輸出速度（每秒輸出token數(shù)量）估算得出。從圖中我們可以看出Llama3（8B）的總響應(yīng)時(shí)間最短，而DeepSeek-Coder-V2的總響應(yīng)時(shí)間最長(zhǎng)。

速看！AI大模型性能最新排名-AI.x社區(qū)

大模型各方面的性能對(duì)我們開(kāi)發(fā)AI產(chǎn)品的應(yīng)用場(chǎng)景至關(guān)重要，對(duì)大模型各方面的性能進(jìn)行測(cè)評(píng)可以幫助我們選擇合適的選擇合適的大模型和API提供商。無(wú)論是優(yōu)化質(zhì)量、提升速度、控制成本，還是需要特定的應(yīng)用能力，這些大模型都為我們提供了豐富的選擇。

本文轉(zhuǎn)載自公眾號(hào)AIGC開(kāi)發(fā)者，作者：阿橙AIGC

原文鏈接：??https://mp.weixin.qq.com/s/d0DNuxivD4YZSOSYEufVrA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學(xué)發(fā)布多模態(tài)大語(yǔ)言模型最新綜述

laokugonggao ? 3897瀏覽 ? 0回復(fù)
讓大模型不再「巨無(wú)霸」，這是一份最新的大模型參數(shù)高效微調(diào)綜述

輕薄滴假象 ? 2391瀏覽 ? 0回復(fù)
國(guó)內(nèi)AI大模型整理，排名不分先后

新手站長(zhǎng) ? 6300瀏覽 ? 0回復(fù)
【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試

sbf_2000 ? 3223瀏覽 ? 0回復(fù)
OpenAI發(fā)布最新大模型安全對(duì)齊獎(jiǎng)勵(lì)方法——RBR

Aceryt ? 2528瀏覽 ? 0回復(fù)
一篇大模型NL2SQL全棧技術(shù)最新綜述

PaperAgent ? 6091瀏覽 ? 0回復(fù)
最新研究：大語(yǔ)言模型使用Json格式輸出會(huì)降低模型性能嗎？

大語(yǔ)言模型論文跟蹤 ? 3683瀏覽 ? 0回復(fù)
| 技術(shù)速覽

Baihai_IDP ? 2684瀏覽 ? 0回復(fù)
一篇大模型Agent最新綜述

探索AGI ? 3067瀏覽 ? 0回復(fù)
從AIGC看大模型供應(yīng)商

AI探索時(shí)代 ? 2171瀏覽 ? 0回復(fù)
一篇大模型RAG最新綜述

NLP前沿1 ? 2728瀏覽 ? 0回復(fù)
淺看大模型用于Text2SQL的綜述

大模型自然語(yǔ)言處理 ? 3025瀏覽 ? 0回復(fù)
從大模型數(shù)據(jù)，看大模型的前瞻應(yīng)用場(chǎng)景在哪里？

AIGC新知 ? 1691瀏覽 ? 0回復(fù)
一篇大模型GraphRAG最新綜述

探索AGI ? 2529瀏覽 ? 0回復(fù)
中科大揭秘微調(diào)大模型的秘訣：如何精準(zhǔn)選擇數(shù)據(jù)提升AI性能

AI論文解讀 ? 2808瀏覽 ? 0回復(fù)
從大模型性能優(yōu)化到DeepSeek部署

卓勝微wjp ? 4445瀏覽 ? 0回復(fù)
登頂全球AI應(yīng)用第2名，豆包排名第10

Aceryt ? 1932瀏覽 ? 0回復(fù)
內(nèi)行看Manus！大模型通過(guò)Deep ReSearch駕馭Multi-Agent原理深度剖析

九歌AI大模型 ? 2927瀏覽 ? 0回復(fù)
別讓大模型想太多了，過(guò)度思考會(huì)影響性能

Aceryt ? 1164瀏覽 ? 0回復(fù)

開(kāi)發(fā)者阿橙

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

用Python打造加密貨幣算法交易機(jī)器人 2024-09-13 12:54:05發(fā)布
用 Dify 和 Notion 打造輕量級(jí)金融數(shù)據(jù)庫(kù) 2024-09-04 14:05:24發(fā)布

熱門(mén)推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

上一篇：神器Pandas AI: 一款智能做數(shù)據(jù)分析的工具！

下一篇： 3分鐘零代碼打造自己的量化選股機(jī)器人

社區(qū)精華內(nèi)容

目錄