自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="pp8u4"></cite>

<cite id="pp8u4"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

字節(jié)屠榜！最強多模態(tài)大模型發(fā)布：20 B參數(shù)橫掃38項第一！

發(fā)布于 2025-5-14 19:23

瀏覽

0收藏

5月13日，火山引擎FORCE LINK AI創(chuàng)新巡展上，Seed團隊推出的視覺-語言多模態(tài)大模型Seed1.5-VL，以僅20B激活參數(shù)的架構(gòu)，橫掃60個評測基準中的38項SOTA，在視頻理解、GUI智能體等關鍵指標上直接叫板谷歌Gemini 2.5 Pro，而推理成本僅為對方的1/3。

字節(jié)屠榜！最強多模態(tài)大模型發(fā)布：20 B參數(shù)橫掃38項第一！ -AI.x社區(qū)

Seed1.5-VL的顛覆性首先體現(xiàn)在全能戰(zhàn)士般的多模態(tài)理解力。上傳一張畫作，它能全面分析畫面元素，自動識別出作品的作者、藝術風格、畫面元素、思想內(nèi)涵等。

面對包含多個人物的圖片，Seed1.5-VL 能精準識別觀眾、棒球、座椅、圍欄等畫面元素，并給出正確坐標；

而在視頻理解領域，Seed1.5-VL則展現(xiàn)出偵探般的敏銳度。
輸入一段監(jiān)控視頻詢問「小貓今天干了哪些壞事」，它能快速標記出抓撓沙發(fā)、打翻水杯等現(xiàn)場，并生成帶時間戳的“案情報告”。

而Seed1.5-VL的殺手锏多模態(tài)智能體功能，可以讓AI能像人類一樣操作PC界面：在測試中成功完成點擊點贊按鈕、填寫表單等GUI交互任務，可以為自動化測試、智能客服等場景打開新的可能。

Seed1.5-VL采用三件套設計：
532M參數(shù)的SeedViT視覺編碼器處理任意比例圖像，MLP適配器對齊多模態(tài)表征；
20B參數(shù)的MoE架構(gòu)語言模型專注復雜推理。這種模塊化組合既保證性能，又將推理成本壓至每千token輸入0.003元，輸出僅0.009元，比同類模型降低67%；
訓練策略上獨創(chuàng)漸進式解鎖：先凍結(jié)視覺編碼器訓練MLP對齊特征，再解凍所有參數(shù)進行大規(guī)模預訓練，最后引入強化學習優(yōu)化長鏈推理。

這種精細調(diào)優(yōu)，讓模型在3T token的多模態(tài)數(shù)據(jù)中提煉出了極致效率。

據(jù)透露，該模型已開始在抖音內(nèi)容審核、飛書智能助手等場景試點，預計半年內(nèi)接入全線產(chǎn)品。

標簽

字節(jié)多模態(tài)大模型

租算力，到算家云

贊

收藏

回復

舉報

回復

相關推薦

抱抱臉團隊（HF）發(fā)布多模態(tài)大模型Idefics2，8B參數(shù)

AIGC最前線 ? 3489瀏覽 ? 0回復
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.3w瀏覽 ? 0回復
字節(jié)豆包、武大提出 CAL：通過視覺相關的 token 增強多模態(tài)對齊效果

輕薄滴假象 ? 2664瀏覽 ? 0回復
字節(jié)跳動發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 4025瀏覽 ? 0回復
Aria: 第一個多模態(tài)MoE | Pixtral 12B | AI教學新突破：DataEnvGym讓模型自我進化

sbf_2000 ? 2256瀏覽 ? 0回復
DeepSeek AI發(fā)布Janus：一款擁有圖像生成能力的1.3B多模態(tài)模型

Halo咯咯 ? 5813瀏覽 ? 0回復
超GPT-4o，1240億參數(shù)！最強開源多模態(tài)模型 Pixtral Large！

Aceryt ? 2180瀏覽 ? 0回復
Pixtral Large：124B的最強開源多模態(tài)大模型

kede96 ? 2698瀏覽 ? 0回復
微軟 Phi-4 震撼發(fā)布：14B 參數(shù)模型性能超越一眾大模型，數(shù)學推理性能提升顯著

Syrupup ? 2713瀏覽 ? 0回復
微軟發(fā)布Phi-4，最強小模型！參數(shù)極小、超GPT-4o

Aceryt ? 1940瀏覽 ? 0回復
Hugging Face 發(fā)布 SmolVLM：用于設備端推理的 2B 參數(shù)視覺語言模型

Halo咯咯 ? 2607瀏覽 ? 0回復
Infinigence AI 發(fā)布 Megrez-3B-Omni：3B 設備上開源多模態(tài)大語言模型 MLLM

Halo咯咯 ? 2055瀏覽 ? 0回復
參數(shù)減少99.5%，媲美全精度FLUX！字節(jié)跳動等發(fā)布首個1.58-bit FLUX量化模型

angel ? 2681瀏覽 ? 0回復
OpenBMB 剛剛發(fā)布 MiniCPM-o 2.6：新的 8B 參數(shù)、Any-to-Any 多模態(tài)模型

Halo咯咯 ? 3328瀏覽 ? 0回復
世界第一位AI程序員Devin：20項任務只完成了3項！14項任務徹底失?。?/a>

51CTO技術棧 ? 1757瀏覽 ? 0回復
GIFNet實現(xiàn)多模態(tài)融合通用模型，單一框架橫掃多任務場景

angel ? 4581瀏覽 ? 0回復
Mistral發(fā)布最強多模態(tài)文檔理解模型Mistral OCR！可免費試用！

51CTO技術棧 ? 1997瀏覽 ? 0回復
地表最強，全面第一！可靈2.0多模態(tài)編輯震撼全場！開辟視頻模型的“新語言”，Prompt的門檻被砍沒了！

51CTO技術棧 ? 1485瀏覽 ? 0回復
騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM

CourseAI ? 1126瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

熱門推薦

席卷全球！世界首個設計Agent Lovart發(fā)布，對傳統(tǒng)設計行業(yè)將產(chǎn)生什么影響？ 0回復

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：席卷全球！世界首個設計Agent Lovart發(fā)布，對傳統(tǒng)設計行業(yè)將產(chǎn)生什么影響？

下一篇：中國醫(yī)療AI殺出黑馬！全球首個女性腫瘤 AI 大模型 “木蘭” 上線，手機端免費用

社區(qū)精華內(nèi)容

目錄

<sub id="jkmmg"></sub>