自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="io6uo"></blockquote>}

<sub id="io6uo"></sub>

<style id="io6uo"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

谷歌的“雙子星”，正在圍剿一眾大模型原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-4-18 15:52

瀏覽

0收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

繼昨天凌晨OpenAI推出滿(mǎn)血o3、o4-mini之后，沒(méi)想到谷歌邁著“LLM王者”的步伐給出了自家的模型SOTA研究Gemini2.5 Flash。

如果說(shuō)o3主打的是“干實(shí)事”，那么谷歌這次的新發(fā)布則是告訴我們：什么是“成本可控”的極致性?xún)r(jià)比。

這次的發(fā)布以后立馬引來(lái)一眾開(kāi)發(fā)者的討論，不過(guò)這次不是負(fù)面的，而是全面的好評(píng)。

1.Gemini2.5 Flash的最大賣(mài)點(diǎn)控制大模型的思考預(yù)算

今天剛剛推出來(lái)的谷歌的新模型，是通過(guò)Google AI Studio和Vertex AI以預(yù)覽版形式發(fā)布的。

從官網(wǎng)發(fā)布的博客來(lái)看，個(gè)人看來(lái)最大的亮點(diǎn)在于：可開(kāi)啟或關(guān)閉思考+給大模型引入了“思考預(yù)算”的可控機(jī)制。這種機(jī)制可以讓開(kāi)發(fā)人員指定在生成響應(yīng)之前應(yīng)分配多少計(jì)算能力用于推理復(fù)雜問(wèn)題。

個(gè)人認(rèn)為，這是谷歌一個(gè)非常務(wù)實(shí)的戰(zhàn)略性舉措，重要性不亞于昨天OpenAI發(fā)布的能干實(shí)事的o3、o4-mini。

因?yàn)椴捎谩八伎碱A(yù)算”這種方法非常契合解決如今AI市場(chǎng)的一個(gè)根本矛盾：更復(fù)雜的推理，通常以更高的延遲和更高的價(jià)格為代價(jià)，進(jìn)而影響了先進(jìn)模型的采用和普及。

具體到Gemini 2.5 Flash的思考預(yù)算是如何制定的？

谷歌為了給開(kāi)發(fā)者提供足夠的靈活性，特別添加了“思考預(yù)算設(shè)置”，可以精細(xì)控制模型在思考時(shí)能夠生成的最大token數(shù)量。更高的預(yù)算允許模型進(jìn)一步推理，從而提高質(zhì)量。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖表顯示，隨著思維預(yù)算的增加，推理質(zhì)量有所提高

更重要的是，預(yù)算設(shè)置了 Gemini 2.5 Flash 的思考能力上限，但如果任務(wù)不需要，模型不會(huì)用盡全部預(yù)算。據(jù)了解，思考預(yù)算可以從0調(diào)整到24,576個(gè)token，作為一個(gè)最大限制而不是固定分配。根據(jù)谷歌的說(shuō)法，模型會(huì)根據(jù)任務(wù)的復(fù)雜性智能地決定使用多少預(yù)算，在不需要復(fù)雜推理時(shí)節(jié)省資源。

有了這些，開(kāi)發(fā)者就可以在質(zhì)量、成本和延遲之間找到合適的平衡點(diǎn)。

2.思考與不思考：6倍價(jià)格差

價(jià)格方面，在Gemini 2.5 Flash中，每百萬(wàn)個(gè)token的輸入成本為0.15美元。輸出成本則根據(jù)推理設(shè)置而存在顯著差異：關(guān)閉思考功能時(shí)每百萬(wàn)token為 0.6美元，而啟用推理功能時(shí)則為每百萬(wàn)token 3.5美元。

推理輸出的近六倍價(jià)格差異反映了“思考”過(guò)程的計(jì)算強(qiáng)度，其中模型在生成響應(yīng)之前會(huì)評(píng)估多種潛在路徑和考慮因素。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) Gemini 2.5 Flash 性?xún)r(jià)比對(duì)比

圖源：谷歌整理的每百萬(wàn)token價(jià)格和性能的帕累托圖

這里值得注意的是，單純關(guān)注定價(jià)變化已經(jīng)意義不大，小編認(rèn)為更大的意義上在于，谷歌做了一件值得思考的動(dòng)作，即，谷歌給出了一種讓公司老板或者獨(dú)立開(kāi)發(fā)者們非常方便的大模型的成本考量尺度：用推理輸出的價(jià)格差異來(lái)度量“思考”過(guò)程的計(jì)算強(qiáng)度。

正如谷歌Gemini產(chǎn)品總監(jiān)在采訪(fǎng)中所提到的：“客戶(hù)需要為模型生成的任何思考和輸出token付費(fèi)。在 AI Studio UX 中，你可以在響應(yīng)之前看到這些思考。在 API 中，我們目前不提供對(duì)這些思考的訪(fǎng)問(wèn)權(quán)限，但開(kāi)發(fā)人員可以查看生成的token數(shù)量?！?/p>

3.根據(jù)提示詞自動(dòng)調(diào)整思考時(shí)長(zhǎng)

當(dāng)然，除了思考預(yù)算設(shè)置，Gemini 2.5 Flash 還有一項(xiàng)“思考時(shí)長(zhǎng)”的感知能力。據(jù)谷歌介紹，該模型經(jīng)過(guò)訓(xùn)練可以知道對(duì)于給定的提示需要思考多長(zhǎng)時(shí)間，因此可以根據(jù)感知到的任務(wù)復(fù)雜性自動(dòng)決定思考多少。

也就是說(shuō)，根據(jù)你所問(wèn)的問(wèn)題的復(fù)雜程度，自動(dòng)調(diào)整推理程度，從而可以更快地回答更簡(jiǎn)單的請(qǐng)求。此外，?即使即使關(guān)閉“思考”，開(kāi)發(fā)者也能保持 2.0 Flash 的快速運(yùn)行速度，并提升性能。

谷歌將提示詞按照需要推理能力的強(qiáng)弱分成了三種：較少推理能力、中等推理能力、高級(jí)推理能力。具體粒度究竟如何？可以看下面幾個(gè)示例。

需要較少推理能力的提示：加拿大有多少個(gè)?。浚梢岳斫獬伞笆聦?shí)性”拷問(wèn)）

需要中等推理能力的提示：你擲兩個(gè)骰子。它們加起來(lái)等于 7 的概率是多少？（高中數(shù)學(xué)題）

還有一個(gè)不錯(cuò)的提示示例：

我的健身房每周一至周五上午 9 點(diǎn)至下午 3 點(diǎn)以及周二和周六下午 2 點(diǎn)至晚上 8 點(diǎn)安排籃球訓(xùn)練。如果我每周工作 5 天，上

午 9 點(diǎn)至下午 6 點(diǎn)，并且希望在工作日打 5 個(gè)小時(shí)籃球，請(qǐng)為我制定一個(gè)時(shí)間表，確保一切順利。（簡(jiǎn)單的辦公規(guī)劃）

需要高度推理的提示：計(jì)算于梁應(yīng)力、開(kāi)發(fā)者常用的復(fù)雜函數(shù)編程等復(fù)雜工程問(wèn)題。

編寫(xiě)一個(gè)evaluate_cells(cells: Dict[str, str]) -> Dict[str, float]計(jì)算電子表格單元格值的函數(shù)。
每個(gè)單元格包含：
一個(gè)數(shù)字（例如"3"）
"=A1 + B1 * 2"或者像使用+、、和其他單元格-的公式。*/
要求：
解決單元格之間的依賴(lài)關(guān)系。
處理運(yùn)算符優(yōu)先級(jí)（*/之前+-）。
檢測(cè)循環(huán)并提出ValueError("Cycle detected at <cell>")。
不要使用eval()。僅使用內(nèi)置庫(kù)。

4.R1、Sonnet3.7被比下去了

Gemini 2.5 Flash在關(guān)鍵基準(zhǔn)測(cè)試中展現(xiàn)出極具競(jìng)爭(zhēng)力的性能，同時(shí)保持了比其他同類(lèi)產(chǎn)品更小的模型規(guī)模。

在一項(xiàng)旨在評(píng)估推理和知識(shí)的嚴(yán)格測(cè)試“人類(lèi)的最后考試”中，Gemini 2.5 Flash 的得分為 12.1%，優(yōu)于 Anthropic 的Claude 3.7 Sonnet（8.9%）和DeepSeek R1（8.6%），但略低于 OpenAI 近期推出的o4-mini（14.3%）。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

該模型在博士級(jí)水平的科學(xué)問(wèn)題評(píng)估GPQA Diamond（78.3%）和AIME 數(shù)學(xué)考試（2025 年測(cè)試中為 78.0%，2024 年測(cè)試中為 88.0%）等技術(shù)基準(zhǔn)上也取得了優(yōu)異的成績(jī)。

據(jù)了解，Doshi對(duì)自己的作品信心滿(mǎn)滿(mǎn)，“企業(yè)應(yīng)該選擇 2.5 Flash，因?yàn)樗诔杀竞退俣确矫嫣峁┝俗罴褍r(jià)值。同時(shí)，它在數(shù)學(xué)、多模態(tài)推理、長(zhǎng)上下文和其他幾個(gè)關(guān)鍵指標(biāo)方面都比競(jìng)爭(zhēng)對(duì)手更加強(qiáng)大?！?/p>

言外之意，很簡(jiǎn)單，谷歌的模型比同行在關(guān)鍵指標(biāo)性能上更強(qiáng)大，而在成本上更便宜，速度上更快。沒(méi)有理由不選擇谷歌。

還有一個(gè)重要的風(fēng)向變化。谷歌這次除了狠狠地命中了企業(yè)開(kāi)發(fā)者在使用LLM時(shí)的成本、性能、速度的“死亡三角”的痛點(diǎn)，同時(shí)還在高校學(xué)生側(cè)發(fā)力了。

據(jù)悉，Gemini 2.5 Flash的發(fā)布正值谷歌AI周，今天除了發(fā)布 2.5 Flash 之外，谷歌還宣布所有美國(guó)大學(xué)生在 2026 年春季之前都可以免費(fèi)使用 Gemini Advanced。

谷歌開(kāi)始明目張膽地在學(xué)生側(cè)發(fā)起沖鋒，可以被視作這樣一種信號(hào)：谷歌準(zhǔn)備一場(chǎng)長(zhǎng)線(xiàn)的戰(zhàn)斗，因?yàn)檫@些高效學(xué)生都是未來(lái)的知識(shí)型員工，而知識(shí)型員工正是大模型市場(chǎng)的必爭(zhēng)之地。當(dāng)然，學(xué)生使用一款大模型的慣性或者說(shuō)忠誠(chéng)度究竟如何，尚有待考證。

5.網(wǎng)友熱議：谷歌正在贏下LLM比賽

隨著Gemini2.5發(fā)布以來(lái)，越來(lái)越多的開(kāi)發(fā)者開(kāi)始重新審視LLM玩家在自己心中的地位。

“谷歌正在悄悄地贏得AI競(jìng)賽”的聲音越來(lái)越多。一位網(wǎng)友表示：Gemini Flash系列模型的宣傳水分是最少的，以自己的生產(chǎn)經(jīng)驗(yàn)來(lái)看，谷歌提供了最好的性?xún)r(jià)比體驗(yàn)和多模態(tài)工具。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

同樣，在知乎上，同樣也拋出了類(lèi)似的問(wèn)題。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

這條帖子下面有網(wǎng)友用“龜兔賽跑”來(lái)比喻現(xiàn)在的LLM競(jìng)賽，用兔子來(lái)形容優(yōu)勢(shì)明顯的谷歌：數(shù)據(jù)頂級(jí)、人才頂級(jí)、算力不愁，只不過(guò)這場(chǎng)LLM競(jìng)賽顯然不是短跑，而是一場(chǎng)足以讓谷歌中途打盹醒過(guò)來(lái)快速超過(guò)對(duì)手的長(zhǎng)途馬拉松。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

這位答主已經(jīng)說(shuō)得非常形象，這里不再贅述。

但這里想從另一種視角來(lái)聊這種現(xiàn)象。在兩年前甚至去年上半年時(shí)，大家對(duì)于谷歌的印象還停留在“狼狽不堪”的防守姿態(tài)上。OpenAI每次都成功截胡谷歌的新發(fā)布，而且每次新發(fā)布都伴隨著這樣或那樣的質(zhì)疑的聲音。

但近四個(gè)月以來(lái)，我們會(huì)發(fā)現(xiàn)這種現(xiàn)象已經(jīng)消失了。取而代之的則是一片“叫好”的口碑。

就比如這次的模型發(fā)布后，hackernews下方很多網(wǎng)友表示：Gemini的輸出質(zhì)量和風(fēng)格相較于OpenAI的o1和Anthropic的Claude都有很大的不同，印象深刻。

別的模型往往卑躬屈膝，而Gemini則表現(xiàn)得更像是一位“諫議大夫”，“Gemini似乎不太愿意同意我的觀點(diǎn)。它做出了一些小的改進(jìn)，而Claude和ChatGPT則會(huì)接受最初的提議，直到被特別要求才會(huì)做出改進(jìn)?！?/p>

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

“跟Gemini 2.5 Pro對(duì)話(huà)，感覺(jué)就像是和一個(gè)知識(shí)淵博、聰明絕頂?shù)娜嗽谵q論?！?/p>

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

這其實(shí)很直接的就能表明：谷歌的大模型，已經(jīng)在趕上甚至超越同行。注重大模型用戶(hù)的切實(shí)需求和體驗(yàn)，正在讓谷歌贏得用戶(hù)的認(rèn)可。

此外，值得注意的是，谷歌正在摸索自己的大模型演進(jìn)路徑。而不是以往被動(dòng)追趕的姿態(tài)。此次OpenAI的o3發(fā)布走的是“大模型使用工具”的風(fēng)格，但谷歌似乎并不care，將自己認(rèn)為正確的“細(xì)粒度的思考預(yù)算控制”功能擺到臺(tái)面上切作為最大亮點(diǎn)進(jìn)行推出。

可以看出谷歌已經(jīng)開(kāi)始觸到了那根大模型產(chǎn)品演進(jìn)的主線(xiàn)脈絡(luò)。

不過(guò)，或許從模型層面上看，谷歌的Gemini雖然可圈可點(diǎn)，但從日活數(shù)據(jù)上看，還遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到贏得競(jìng)賽的程度。據(jù)第三方分析稱(chēng)， ChatGPT每周用戶(hù)超過(guò) 8 億，而 Gemini每月用戶(hù)估計(jì)為 2.5 億至 2.75 億。

但長(zhǎng)遠(yuǎn)看，基礎(chǔ)模型的領(lǐng)先加上極致可控的性?xún)r(jià)比，Gemini的用戶(hù)勢(shì)必會(huì)迎來(lái)新一波的暴漲。

正如下面這位轉(zhuǎn)向使用Gemini的網(wǎng)友所說(shuō)：我同意Claude非常好，但我從未覺(jué)得它在實(shí)際工作中很舒服，3.7中有很多過(guò)度設(shè)計(jì)而半生不熟的解決方案，而這使得自己付出API的費(fèi)用物失所值。

谷歌的“雙子星”，正在圍剿一眾大模型-AI.x社區(qū) 圖片

可以想象在一年后的某天，幾個(gè)開(kāi)發(fā)者調(diào)侃某個(gè)大模型產(chǎn)品或功能：“不是XX我買(mǎi)不起，而是XX家的更有性?xún)r(jià)比！”

到那時(shí)候，大模型的生態(tài)才算是塵埃落定了。

參考鏈接：

??https://developers.googleblog.com/en/start-building-with-gemini-25-flash/??

??https://news.ycombinator.com/item?id=43720845??

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：云昭

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

開(kāi)發(fā)

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

熱門(mén)內(nèi)容榜 ? 最近上榜

回復(fù)

相關(guān)推薦

今日arXiv最熱NLP大模型論文：Github萬(wàn)星！北航發(fā)布零代碼大模型微調(diào)平臺(tái)LlamaFactory

pangguiyu ? 4310瀏覽 ? 0回復(fù)
大模型做時(shí)序預(yù)測(cè)也很強(qiáng)！華人團(tuán)隊(duì)激活LLM新能力，超越一眾傳統(tǒng)模型實(shí)現(xiàn)SOTA

Crystalcxt ? 3185瀏覽 ? 0回復(fù)
大模型一定就比小模型好？谷歌的這項(xiàng)研究說(shuō)不一定

輕薄滴假象 ? 2670瀏覽 ? 0回復(fù)
一大堆Chinese Llama3正在襲來(lái)

NLP工作站 ? 2578瀏覽 ? 0回復(fù)
谷歌發(fā)布專(zhuān)用于個(gè)人健康的大語(yǔ)言模型PH-LLM

Aceryt ? 2427瀏覽 ? 0回復(fù)
一大堆Llama3.1-Chinese正在襲來(lái)

NLP工作站 ? 2885瀏覽 ? 0回復(fù)
谷歌開(kāi)源Gemma Scope，更好解釋大模型工作原理

Aceryt ? 3021瀏覽 ? 0回復(fù)
小模型和開(kāi)源正在成為AI發(fā)展的變數(shù)

51CTO技術(shù)棧 ? 2025瀏覽 ? 0回復(fù)
OpenAI草莓o1深夜炸場(chǎng)，一眾大佬博主熬夜實(shí)測(cè)：有坑，很難說(shuō)

51CTO技術(shù)棧 ? 3034瀏覽 ? 0回復(fù)
大模型的熱度正在下降，大模型的未來(lái)在哪里？

AI探索時(shí)代 ? 2136瀏覽 ? 0回復(fù)
VLM版o1超越一眾開(kāi)源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2461瀏覽 ? 0回復(fù)
微軟、Anthropic正在拉滿(mǎn)大模型的情緒價(jià)值

51CTO技術(shù)棧 ? 2240瀏覽 ? 0回復(fù)
微軟 Phi-4 震撼發(fā)布：14B 參數(shù)模型性能超越一眾大模型，數(shù)學(xué)推理性能提升顯著

Syrupup ? 2713瀏覽 ? 0回復(fù)
10.1k高星 GitHub 庫(kù)：告別JSON錯(cuò)誤：Outlines如何提升大模型的結(jié)構(gòu)化輸出

凝固的雨_1 ? 3941瀏覽 ? 0回復(fù)
谷歌、三星、LG角逐AI TV，2025大模型版新電視引圍觀！業(yè)內(nèi)人士：失望！

51CTO技術(shù)棧 ? 1538瀏覽 ? 0回復(fù)
蘋(píng)果開(kāi)源通用視覺(jué)模型：創(chuàng)新訓(xùn)練方法，超1000顆星

Aceryt ? 1633瀏覽 ? 0回復(fù)
20000顆星！100多個(gè)Agent超級(jí)工具，開(kāi)源MCP大合集

Aceryt ? 3092瀏覽 ? 0回復(fù)
忘掉 Manus 模型上下文協(xié)議MCP 正在重新定義智能體的未來(lái)

數(shù)字化助推器 ? 1285瀏覽 ? 0回復(fù)
Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器

穿越時(shí)空111 ? 1765瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

支付巨頭被打臉！曾放話(huà)AI能頂700名人類(lèi)客服，年省4千萬(wàn)刀；一年后又把員工招回來(lái)了！ 0回復(fù)

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

上一篇：齊心集團(tuán)于斌平：在大模型時(shí)代，軟件應(yīng)用開(kāi)發(fā)開(kāi)發(fā)范式從“代碼驅(qū)動(dòng)”轉(zhuǎn)向“模型能力優(yōu)先”

下一篇：半馬變翻車(chē)現(xiàn)場(chǎng)！宇樹(shù)科技最新回應(yīng)：G1開(kāi)跑即摔倒系未使用原生算法！

社區(qū)精華內(nèi)容

目錄

<style id="7ax3h"></style>