自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

起猛了,GPT-4o被谷歌新模型擊敗,ChatGPT官號(hào):大家深吸一口氣

人工智能
歷時(shí)一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次奪得lmsys競(jìng)技場(chǎng)第一。(中文任務(wù)也第一)

起猛了,GPT-4o被谷歌新模型超越了!

歷時(shí)一周,超1,2000人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次奪得lmsys競(jìng)技場(chǎng)第一。(中文任務(wù)也第一)

圖片圖片

而且這次還是雙冠王,除了總榜(唯一分?jǐn)?shù)上1300),在視覺排行榜上也是第一。

圖片圖片

Gemini團(tuán)隊(duì)的關(guān)鍵人物Simon Tokumine發(fā)文慶祝稱:

(這一新模型)是我們制作過(guò)的最強(qiáng)大、最聰明的Gemini。

圖片圖片

一位Reddit用戶也稱該模型“非常好”,并表示希望其功能不會(huì)被縮減。

圖片圖片

更多網(wǎng)友興奮表示,OpenAI終于受到挑戰(zhàn),要發(fā)布新版本來(lái)反擊了!

圖片圖片

ChatGPT官方賬號(hào)也出來(lái)暗示著什么。

圖片圖片

一片熱鬧之際,谷歌AI Studio產(chǎn)品負(fù)責(zé)人宣布該模型進(jìn)入免費(fèi)測(cè)試階段

可在AI studio免費(fèi)使用

圖片圖片

網(wǎng)友:谷歌終于來(lái)了!

嚴(yán)格來(lái)說(shuō),Gemini 1.5 Pro(0801)其實(shí)不算新模型。

實(shí)驗(yàn)性版本建立在谷歌2月發(fā)布的Gemini 1.5 Pro基礎(chǔ)之上,后來(lái)1.5系列將上下文窗口擴(kuò)展到了200萬(wàn)。

隨著模型更新,這命名也是越來(lái)越長(zhǎng)了,也引起人們一片吐槽。

這不,一位OpenAI員工祝賀之余不忘陰陽(yáng)怪氣一把:

圖片圖片

當(dāng)然了,雖然名字難記,但Gemini 1.5 Pro(0801)這次在競(jìng)技場(chǎng)官方評(píng)測(cè)中表現(xiàn)亮眼。

總體勝率熱圖顯示,它比GPT-4o勝出54%,比Claude 3.5 Sonnet勝出59%。

圖片圖片

多語(yǔ)言能力基準(zhǔn)測(cè)試中,它在中文、日語(yǔ)、德語(yǔ)、俄語(yǔ)均排名第一。

圖片圖片

但是,在Coding、Hard Prompt Arena中,它還是打不過(guò)Claude 3.5 Sonnet、GPT-4o、Llama 405B等對(duì)手。

圖片圖片

這一點(diǎn)也遭到網(wǎng)友詬病,轉(zhuǎn)譯過(guò)來(lái)就是:

編碼才是最重要的,但它在這上面表現(xiàn)不佳。

圖片圖片

不過(guò)也有人出來(lái)安利Gemini 1.5 Pro(0801)的圖像和PDF提取功能

DAIR.AI聯(lián)合創(chuàng)始人Elvis親自在油管做了全套測(cè)試,并總結(jié)道:

視覺能力非常接近GPT-4o。

圖片圖片

以及,有人拿Gemini 1.5 Pro(0801)來(lái)解決Claude 3.5 Sonet之前回答不好的問題。

結(jié)果一看,它不僅表現(xiàn)更好,同時(shí)也干掉了自家小伙伴Gemini 1.5 Flash。

圖片圖片

不過(guò)嘛,一些經(jīng)典常識(shí)測(cè)試它還是搞不定,比如“寫十個(gè)以蘋果結(jié)尾的句子”。

圖片圖片

One More Thing

與此同時(shí),谷歌Gemma 2系列迎來(lái)了一個(gè)新的20億參數(shù)模型

圖片圖片

Gemma 2(2B)開箱即用,可以在Google Colab的免費(fèi)T4 GPU上運(yùn)行。

圖片圖片

在競(jìng)技場(chǎng)排行榜上,它超過(guò)了所有GPT-3.5模型,甚至超越了Mixtral-8x7b。

圖片圖片

面對(duì)谷歌最新取得的一系列新排名,競(jìng)技場(chǎng)榜單權(quán)威性再次受到大家質(zhì)疑。

Nous Research聯(lián)合創(chuàng)始人Teknium(微調(diào)后訓(xùn)練領(lǐng)域知名玩家)發(fā)文提醒:

雖然Gemma 2(2B)在競(jìng)技場(chǎng)得分高于GPT-3.5 Turbo,但它在MMLU上遠(yuǎn)低于后者。
如果人們使用競(jìng)技場(chǎng)排名作為模型性能的唯一指標(biāo),這種差異就會(huì)令人擔(dān)憂。

圖片圖片

Abacus.AI首席執(zhí)行官Bindu Reddy更是直接呼吁:

請(qǐng)立即停止使用這個(gè)人類評(píng)估排行榜!
Claude 3.5 Sonnet比GPT-4o-mini好得多。
類似的Gemini/Gemma在這個(gè)排行榜上的得分都不應(yīng)該這么高。

圖片圖片

那么,你認(rèn)為這種人類匿名投票的方式還靠譜嗎?(歡迎評(píng)論區(qū)討論)

參考鏈接:
[1]https://x.com/lmsysorg/status/1819048821294547441

[2]https://x.com/JeffDean/status/1819121162578022849

[3]https://x.com/stevenheidel/status/1819080995062403484

[4]https://x.com/rohanpaul_ai/status/1818697538360295897

[5]https://x.com/bindureddy/status/1818738366466412601

[6]https://x.com/infwinston/status/1818718423700103526

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2021-12-06 08:30:49

SpringSpring Bean面試題

2021-03-29 12:22:25

微信iOS蘋果

2020-03-31 08:12:25

Kafka架構(gòu)數(shù)據(jù)庫(kù)

2021-06-08 22:43:07

IPC方式Qt

2020-08-12 09:55:07

附近的人數(shù)據(jù)庫(kù)MySQL

2020-04-16 12:42:42

附近的人共享單車App

2025-05-14 01:55:00

FCMCPAI

2024-01-26 12:31:16

OpenAIGPT-4代碼

2020-10-22 12:30:33

MySQL

2020-09-24 09:08:04

分布式系統(tǒng)架構(gòu)

2020-04-14 13:32:56

@Transacti失效場(chǎng)景

2023-12-18 23:09:25

開源優(yōu)化引擎

2020-12-21 06:07:35

Mybatis設(shè)計(jì)模式

2020-05-27 21:00:07

微信移動(dòng)應(yīng)用

2024-05-14 11:29:15

2023-12-04 09:17:00

AI材料

2022-05-24 11:50:46

延時(shí)消息分布式

2021-05-18 09:03:16

Gomapslice

2020-11-04 14:20:58

分布式數(shù)據(jù)庫(kù)MySQL

2020-07-31 10:15:32

分布式ID數(shù)據(jù)庫(kù)MySQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)