自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="rflsi"></big>

<tt id="rflsi"></tt>

<bdo id="rflsi"><strong id="rflsi"></strong></bdo>

<pre id="rflsi"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

起猛了，GPT-4o被谷歌新模型擊敗，ChatGPT官號(hào)：大家深吸一口氣

2024-08-02 13:11:39

歷時(shí)一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次奪得lmsys競(jìng)技場(chǎng)第一。（中文任務(wù)也第一）

起猛了，GPT-4o被谷歌新模型超越了！

歷時(shí)一周，超1,2000人匿名投票，Gemini 1.5 Pro（0801）代表谷歌首次奪得lmsys競(jìng)技場(chǎng)第一。（中文任務(wù)也第一）

圖片

而且這次還是雙冠王，除了總榜（唯一分?jǐn)?shù)上1300），在視覺排行榜上也是第一。

圖片

Gemini團(tuán)隊(duì)的關(guān)鍵人物Simon Tokumine發(fā)文慶祝稱：

(這一新模型）是我們制作過(guò)的最強(qiáng)大、最聰明的Gemini。

圖片

一位Reddit用戶也稱該模型“非常好”，并表示希望其功能不會(huì)被縮減。

圖片

更多網(wǎng)友興奮表示，OpenAI終于受到挑戰(zhàn)，要發(fā)布新版本來(lái)反擊了!

圖片

ChatGPT官方賬號(hào)也出來(lái)暗示著什么。

圖片

一片熱鬧之際，谷歌AI Studio產(chǎn)品負(fù)責(zé)人宣布該模型進(jìn)入免費(fèi)測(cè)試階段：

可在AI studio免費(fèi)使用

圖片

網(wǎng)友：谷歌終于來(lái)了！

嚴(yán)格來(lái)說(shuō)，Gemini 1.5 Pro（0801）其實(shí)不算新模型。

該實(shí)驗(yàn)性版本建立在谷歌2月發(fā)布的Gemini 1.5 Pro基礎(chǔ)之上，后來(lái)1.5系列將上下文窗口擴(kuò)展到了200萬(wàn)。

隨著模型更新，這命名也是越來(lái)越長(zhǎng)了，也引起人們一片吐槽。

這不，一位OpenAI員工祝賀之余不忘陰陽(yáng)怪氣一把：

圖片

當(dāng)然了，雖然名字難記，但Gemini 1.5 Pro（0801）這次在競(jìng)技場(chǎng)官方評(píng)測(cè)中表現(xiàn)亮眼。

總體勝率熱圖顯示，它比GPT-4o勝出54%，比Claude 3.5 Sonnet勝出59%。

圖片

在多語(yǔ)言能力基準(zhǔn)測(cè)試中，它在中文、日語(yǔ)、德語(yǔ)、俄語(yǔ)均排名第一。

圖片

但是，在Coding、Hard Prompt Arena中，它還是打不過(guò)Claude 3.5 Sonnet、GPT-4o、Llama 405B等對(duì)手。

圖片

這一點(diǎn)也遭到網(wǎng)友詬病，轉(zhuǎn)譯過(guò)來(lái)就是：

編碼才是最重要的，但它在這上面表現(xiàn)不佳。

圖片

不過(guò)也有人出來(lái)安利Gemini 1.5 Pro（0801）的圖像和PDF提取功能。

DAIR.AI聯(lián)合創(chuàng)始人Elvis親自在油管做了全套測(cè)試，并總結(jié)道：

視覺能力非常接近GPT-4o。

圖片

以及，有人拿Gemini 1.5 Pro（0801）來(lái)解決Claude 3.5 Sonet之前回答不好的問題。

結(jié)果一看，它不僅表現(xiàn)更好，同時(shí)也干掉了自家小伙伴Gemini 1.5 Flash。

圖片

不過(guò)嘛，一些經(jīng)典常識(shí)測(cè)試它還是搞不定，比如“寫十個(gè)以蘋果結(jié)尾的句子”。

圖片

One More Thing

與此同時(shí)，谷歌Gemma 2系列迎來(lái)了一個(gè)新的20億參數(shù)模型。

圖片

Gemma 2（2B）開箱即用，可以在Google Colab的免費(fèi)T4 GPU上運(yùn)行。

圖片

在競(jìng)技場(chǎng)排行榜上，它超過(guò)了所有GPT-3.5模型，甚至超越了Mixtral-8x7b。

圖片

面對(duì)谷歌最新取得的一系列新排名，競(jìng)技場(chǎng)榜單權(quán)威性再次受到大家質(zhì)疑。

Nous Research聯(lián)合創(chuàng)始人Teknium（微調(diào)后訓(xùn)練領(lǐng)域知名玩家）發(fā)文提醒：

雖然Gemma 2（2B）在競(jìng)技場(chǎng)得分高于GPT-3.5 Turbo，但它在MMLU上遠(yuǎn)低于后者。
如果人們使用競(jìng)技場(chǎng)排名作為模型性能的唯一指標(biāo)，這種差異就會(huì)令人擔(dān)憂。

圖片

Abacus.AI首席執(zhí)行官Bindu Reddy更是直接呼吁：

請(qǐng)立即停止使用這個(gè)人類評(píng)估排行榜！
Claude 3.5 Sonnet比GPT-4o-mini好得多。
類似的Gemini/Gemma在這個(gè)排行榜上的得分都不應(yīng)該這么高。

圖片

那么，你認(rèn)為這種人類匿名投票的方式還靠譜嗎？（歡迎評(píng)論區(qū)討論）

參考鏈接：
[1]https://x.com/lmsysorg/status/1819048821294547441

[2]https://x.com/JeffDean/status/1819121162578022849

[3]https://x.com/stevenheidel/status/1819080995062403484

[4]https://x.com/rohanpaul_ai/status/1818697538360295897

[5]https://x.com/bindureddy/status/1818738366466412601

[6]https://x.com/infwinston/status/1818718423700103526

責(zé)任編輯：武曉燕來(lái)源：量子位

GPT-4o 模型 ChatGPT

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="kb1vz"></pre>