字節(jié)屠榜!最強多模態(tài)大模型發(fā)布:20 B參數(shù)橫掃38項第一!
5月13日,火山引擎FORCE LINK AI創(chuàng)新巡展上,Seed團隊推出的視覺-語言多模態(tài)大模型Seed1.5-VL,以僅20B激活參數(shù)的架構(gòu),橫掃60個評測基準中的38項SOTA,在視頻理解、GUI智能體等關鍵指標上直接叫板谷歌Gemini 2.5 Pro,而推理成本僅為對方的1/3。
Seed1.5-VL的顛覆性首先體現(xiàn)在全能戰(zhàn)士般的多模態(tài)理解力。上傳一張畫作,它能全面分析畫面元素,自動識別出作品的作者、藝術風格、畫面元素、思想內(nèi)涵等。
面對包含多個人物的圖片,Seed1.5-VL 能精準識別觀眾、棒球、座椅、圍欄等畫面元素,并給出正確坐標;
而在視頻理解領域,Seed1.5-VL則展現(xiàn)出偵探般的敏銳度。
輸入一段監(jiān)控視頻詢問「小貓今天干了哪些壞事」,它能快速標記出抓撓沙發(fā)、打翻水杯等現(xiàn)場,并生成帶時間戳的“案情報告”。
而Seed1.5-VL的殺手锏多模態(tài)智能體功能,可以讓AI能像人類一樣操作PC界面:在測試中成功完成點擊點贊按鈕、填寫表單等GUI交互任務,可以為自動化測試、智能客服等場景打開新的可能。
Seed1.5-VL采用三件套設計:
532M參數(shù)的SeedViT視覺編碼器處理任意比例圖像,MLP適配器對齊多模態(tài)表征;
20B參數(shù)的MoE架構(gòu)語言模型專注復雜推理。這種模塊化組合既保證性能,又將推理成本壓至每千token輸入0.003元,輸出僅0.009元,比同類模型降低67%;
訓練策略上獨創(chuàng)漸進式解鎖:先凍結(jié)視覺編碼器訓練MLP對齊特征,再解凍所有參數(shù)進行大規(guī)模預訓練,最后引入強化學習優(yōu)化長鏈推理。
這種精細調(diào)優(yōu),讓模型在3T token的多模態(tài)數(shù)據(jù)中提煉出了極致效率。
據(jù)透露,該模型已開始在抖音內(nèi)容審核、飛書智能助手等場景試點,預計半年內(nèi)接入全線產(chǎn)品。
