字節(jié)最強(qiáng)多模態(tài)模型登陸火山引擎！Seed1.5-VL靠20B激活參數(shù)狂攬38項(xiàng)SOTA

2025-05-14 15:05:21

字節(jié)拿出了國(guó)際頂尖水平的視覺–語(yǔ)言多模態(tài)大模型。

5 月 13 日，火山引擎在上海搞了場(chǎng) FORCE LINK AI 創(chuàng)新巡展，一股腦發(fā)布了 5 款模型和產(chǎn)品，包括豆包?視頻生成模型 Seedance 1.0 lite、升級(jí)后的豆包 1.5?視覺深度思考模型，以及新版豆包?音樂模型。同時(shí)，Data Agent 和 Trae 等產(chǎn)品也有了新進(jìn)展。

其中，全場(chǎng)最吸睛的就是豆包 1.5?視覺深度思考模型（以下稱 Seed 1.5-VL）。

相比于之前版本，Seed1.5-VL 具備更強(qiáng)的通用多模態(tài)理解和推理能力，不僅視覺定位和推理更快更準(zhǔn)，還新增了視頻理解、多模態(tài)智能體能力。

舉個(gè)例子。僅需一張圖，再來個(gè)提示詞，Seed1.5-VL 就能精準(zhǔn)識(shí)別觀眾、棒球、座椅、圍欄等多種元素，還能正確分類并給出坐標(biāo)。

再比如，喂它一段監(jiān)控，問一句：「今天小貓干了哪些壞事？」幾秒鐘后，它就丟過來幾段視頻，「抓包」了小貓遛彎、玩球、巡視、搞破壞等各種「作案」現(xiàn)場(chǎng)。

盡管 Seed1.5-VL 的激活參數(shù)僅有 20B，但其性能可達(dá)到與 Gemini2.5 Pro 相當(dāng)?shù)乃?，?60 個(gè)公開評(píng)測(cè)基準(zhǔn)中，有 38 個(gè)取得 SOTA 表現(xiàn)，在視頻理解、視覺推理、多模態(tài)智能體能力等方面均處于第一梯隊(duì)。

Seed1.5-VL 推理性能拉滿，但推理成本極具優(yōu)勢(shì)。據(jù)其官網(wǎng)顯示，Seed1.5-VL 推理輸入價(jià)格僅為每千 tokens 0.003 元，推理輸出價(jià)格為每千 tokens 0.009 元。

目前，Seed1.5-VL 已在火山引擎全面開放 API，開發(fā)者登錄后選擇 Doubao-1.5-thinking-vision-pro 即可快速調(diào)用其能力，構(gòu)建自己的 AI 視覺助手、巡檢系統(tǒng)、交互 Agent 或下一代智能攝像頭。

官網(wǎng)：https://seed.bytedance.com/tech/seed1_5_vl

API：https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

一手實(shí)測(cè)：視覺定位、推理又快又準(zhǔn)

說一千道一萬(wàn)，模型好不好使，還得親自上手試。接下來，我們就奉上一手實(shí)測(cè)，檢驗(yàn)一下 Seed1.5-VL 真實(shí)能力。

先來看看它的視覺定位和推理能力。

我們上傳一張擺滿各式各樣牛奶的貨架圖片，讓它找出圖中有幾盒黃桃味果粒酸奶優(yōu)酸乳，并計(jì)算它們的價(jià)格。

這類任務(wù)看似簡(jiǎn)單，實(shí)則非?？简?yàn)?zāi)Ｐ偷亩嗄B(tài)協(xié)同能力，需要它同時(shí)具備圖像理解（識(shí)別包裝）、文本 OCR（識(shí)別價(jià)格標(biāo)簽）、語(yǔ)義匹配（產(chǎn)品名稱匹配）、數(shù)學(xué)推理（乘法計(jì)算）等能力。

而 Seed1.5-VL 僅用不到 10 秒，就精準(zhǔn)識(shí)別出貨架角落里的黃桃味酸奶優(yōu)酸乳，還準(zhǔn)確數(shù)清瓶數(shù)、識(shí)別單價(jià)，并進(jìn)行正確的價(jià)格計(jì)算。

除了門店貨架巡檢的工作，我們還讓它找出下圖中有幾只小貓?jiān)谏鷼狻?/span>

從圖像像素級(jí)別的變化中提取情緒線索，這對(duì)大模型的圖像理解精度、注意力機(jī)制、細(xì)粒度識(shí)別能力都是極大的挑戰(zhàn)。Seed1.5-VL 面對(duì)一整屏表情相似的小貓臉，準(zhǔn)確識(shí)別出 5 只在「生氣」，并給出了相應(yīng)坐標(biāo)。

還有下面這個(gè)「找不同」測(cè)試，Seed1.5-VL 既能精確分析兩張相似圖片的細(xì)微差別，又能清晰描述所有不同點(diǎn)，比如太陽(yáng)左側(cè)飛鳥數(shù)量、沙灘球顏色等，這展示了它在視覺理解、空間關(guān)系處理和結(jié)構(gòu)化輸出方面的綜合能力。

此外，它還可以推理復(fù)雜視覺謎題。

比如這道公務(wù)員圖形推理題目，大部分人看到這些黑白方塊一頭霧水，但 Seed1.5-VL 僅用 10 秒就捕捉到其中的規(guī)律，通過精準(zhǔn)識(shí)別前兩行圖形疊加后「去同存異」的變換邏輯，準(zhǔn)確推導(dǎo)出第三行的缺失圖形。

對(duì)于開發(fā)者來說，Seed1.5-VL 新增的多模態(tài)智能體能力是一大利器。它基于強(qiáng)大的 GUI 定位性能，可在 PC 端、手機(jī)端等不同環(huán)境中完成復(fù)雜交互任務(wù)。

比如在測(cè)試環(huán)境中，Agent 可以識(shí)別并點(diǎn)擊「點(diǎn)贊」按鈕，用于模擬用戶行為，驗(yàn)證功能流程是否正常。

技術(shù)解讀：重構(gòu)視覺理解邊界

作為 Seed 系列最新一代多模態(tài)模型，Seed1.5-VL 在超過 3T token 的多模態(tài)數(shù)據(jù)上完成預(yù)訓(xùn)練，在圖像問答、圖表理解、視覺推理、視頻分析、GUI 智能體等多個(gè)任務(wù)上表現(xiàn)突出，成為推動(dòng)多模態(tài)交互應(yīng)用落地的重要引擎。

那么，該模型背后有哪些獨(dú)門絕技？

論文鏈接：https://arxiv.org/abs/2505.07062
技術(shù)報(bào)告：https://github.com/ByteDance-Seed/Seed1.5-VL/blob/main/Seed1.5-VL-Technical-Report.pdf
GitHub：https://github.com/ByteDance-Seed/Seed1.5-VL

從模型架構(gòu)上來說，Seed1.5-VL 由三個(gè)核心組件構(gòu)成：首先是視覺編碼模塊 SeedViT，模型參數(shù)為 532M，用于對(duì)圖像和視頻進(jìn)行編碼，能夠處理任意長(zhǎng)寬比的圖像輸入；其次是一個(gè)多層感知機(jī)（MLP）適配器，負(fù)責(zé)將視覺特征投影到多模態(tài)表征空間；最后是基于 MoE 架構(gòu)的大語(yǔ)言模型 Seed1.5-LLM，激活參數(shù)為 20B，專注于處理融合后的多模態(tài)輸入。

盡管激活參數(shù)規(guī)模遠(yuǎn)小于傳統(tǒng)大型模型，但其表現(xiàn)卻足以媲美甚至超越當(dāng)前多項(xiàng)主流方法，在保證性能的同時(shí)顯著降低了推理成本。

在訓(xùn)練方法上，Seed1.5-VL 并未從一開始就進(jìn)行聯(lián)合多模態(tài)學(xué)習(xí)，而是選擇了在語(yǔ)言模型基座上進(jìn)行多模態(tài)預(yù)訓(xùn)練，以實(shí)現(xiàn)靈活的消融實(shí)驗(yàn)和快速迭代開發(fā)。

整個(gè)預(yù)訓(xùn)練過程分為三個(gè)階段：初期僅訓(xùn)練 MLP 適配器以初步對(duì)齊視覺和語(yǔ)言表征；中期解凍所有參數(shù)，在大規(guī)模圖文數(shù)據(jù)中強(qiáng)化知識(shí)積累、視覺 grounding 和 OCR 能力；后期在更均衡的數(shù)據(jù)混合中加入視頻、編程、三維理解等新領(lǐng)域數(shù)據(jù)，并將序列長(zhǎng)度顯著增加，以處理復(fù)雜場(chǎng)景和長(zhǎng)序列依賴。

到了后訓(xùn)練階段，Seed1.5-VL 引入了監(jiān)督微調(diào)（SFT）與強(qiáng)化學(xué)習(xí)（RL）的組合策略。

SFT 訓(xùn)練數(shù)據(jù)集包含通用指令數(shù)據(jù)和長(zhǎng)鏈?zhǔn)剿伎紨?shù)據(jù)，前者用于簡(jiǎn)潔準(zhǔn)確響應(yīng)，后者用于詳細(xì)分步推理。其中長(zhǎng)鏈?zhǔn)剿伎紨?shù)據(jù)是基于強(qiáng)化學(xué)習(xí)后的模型，通過拒絕采樣的方式得到。

強(qiáng)化學(xué)習(xí)則整合了基于人類和驗(yàn)證器反饋的強(qiáng)化學(xué)習(xí)（RLHF/RLVR）及多項(xiàng)先進(jìn)技術(shù)。采用混合獎(jiǎng)勵(lì)，區(qū)分通用與可驗(yàn)證提示，通用提示僅獎(jiǎng)勵(lì)最終解以激勵(lì)思考探索；針對(duì)不同類型的任務(wù)采用差異化 KL 散度系數(shù)，平衡獎(jiǎng)勵(lì)利用與探索。

考慮到多模態(tài)模型在訓(xùn)練中的異構(gòu)性挑戰(zhàn)，Seed1.5-VL 在 Training Infrastructure 設(shè)計(jì)上也進(jìn)行了大量工程創(chuàng)新。

模型采用多模態(tài)并行框架，針對(duì)視覺編碼 / MLP 適配器和語(yǔ)言模型分別使用 ZeRO 數(shù)據(jù)并行與標(biāo)準(zhǔn) 4D 并行策略，充分發(fā)揮各自優(yōu)勢(shì)；視覺 token 的重分配采用局部貪心負(fù)載均衡算法，將計(jì)算負(fù)載合理分布在 GPU 集群中，提升吞吐效率；此外，還定制了數(shù)據(jù)加載器，優(yōu)化了數(shù)據(jù)讀取和分發(fā)過程。

Seed1.5-VL 以其強(qiáng)大的多模態(tài)理解與推理能力，正在重塑我們與視覺世界交互的方式。無(wú)論是圖像定位、視覺推理還是長(zhǎng)視頻解析，Seed1.5-VL 都展示了行業(yè)領(lǐng)先的技術(shù)實(shí)力，也為通用視覺系統(tǒng)的實(shí)際應(yīng)用拓寬了路徑。

結(jié)語(yǔ)

在此次上海巡展中，火山引擎展示了其在 AI 領(lǐng)域的多項(xiàng)創(chuàng)新成果。從輕量級(jí)視頻生成到深度視覺理解，再到音樂創(chuàng)作與全流程數(shù)據(jù)智能體，火山引擎正逐步構(gòu)建一個(gè)完整的技術(shù)生態(tài)，不僅為企業(yè)提供了更強(qiáng)的技術(shù)支撐，也推動(dòng)了從業(yè)務(wù)流程到智能體應(yīng)用的全面落地。

這也意味著，真正的多模態(tài)智能時(shí)代，正加速走進(jìn)現(xiàn)實(shí)。

責(zé)任編輯：張燕妮來源：機(jī)器之心