字節(jié)發(fā)布 Seed1.5-VL 視覺-語言多模態(tài)大模型,20B 參數(shù)狂攬 60 項(xiàng)公開評測基準(zhǔn)中 38 項(xiàng) SOTA!
5 月 13 日,火山引擎在上海搞了場 FORCE LINK AI 創(chuàng)新巡展,一股腦發(fā)布了 5 款模型和產(chǎn)品,包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型,以及新版豆包?音樂模型。同時(shí),Data Agent 和 Trae 等產(chǎn)品也有了新進(jìn)展。
今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強(qiáng)的通用多模態(tài)理解和推理能力,不僅視覺定位和推理更快更準(zhǔn),還新增了視頻理解、多模態(tài)智能體能力。舉個(gè)例子。僅需一張圖,再來個(gè)提示詞,Seed1.5-VL 就能精準(zhǔn)識別觀眾、棒球、座椅、圍欄等多種元素,還能正確分類并給出坐標(biāo)。
示例展示
基礎(chǔ)感知能力
視覺定位
視覺謎題
相關(guān)鏈接
- 官網(wǎng):https://seed.bytedance.com/tech/seed1_5_vl
- 代碼:https://github.com/ByteDance-Seed/Seed1.5-VL
- API:https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428
模型架構(gòu)
Seed1.5-VL 包含一個(gè) 5.32 億參數(shù)的視覺編碼器,以及一個(gè)激活參數(shù)規(guī)模達(dá) 200 億的混合專家(MoE)大語言模型。
Seed1.5-VL 模型結(jié)構(gòu)圖
模型由以下三個(gè)核心組件組成:
- SeedViT:用于對圖像和視頻進(jìn)行編碼;
- MLP 適配器:將視覺特征投射為多模態(tài) token;
- 大語言模型:用于處理多模態(tài)輸入并執(zhí)行推理。
Seed1.5-VL 支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細(xì)節(jié)。在視頻處理方面,提出了一種動態(tài)幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據(jù)需要?jiǎng)討B(tài)調(diào)整采樣幀率和分辨率。此外,為了增強(qiáng)模型的時(shí)間信息感知能力,在每幀圖像之前引入了時(shí)間戳標(biāo)記(timestamp token)。
預(yù)訓(xùn)練數(shù)據(jù)與 Scaling Law
Seed1.5-VL 的預(yù)訓(xùn)練語料庫包含 3 萬億個(gè)多樣化且高質(zhì)量的源標(biāo)記(source tokens)。這些數(shù)據(jù)根據(jù)模型目標(biāo)能力的需求進(jìn)行了分類。
在預(yù)訓(xùn)練階段觀察到大多數(shù)子類別的數(shù)據(jù)訓(xùn)練損失與訓(xùn)練標(biāo)記數(shù)量之間遵循冪律關(guān)系。此外,某一子類別的訓(xùn)練損失與該類別對應(yīng)的下游任務(wù)評估指標(biāo)之間呈現(xiàn)對數(shù)線性關(guān)系(例如:評估指標(biāo) ~ log(訓(xùn)練損失))的趨勢,尤其在局部區(qū)域內(nèi)尤為顯著。
后訓(xùn)練
Seed1.5-VL 的后訓(xùn)練過程采用了結(jié)合拒絕采樣(rejection sampling)和在線強(qiáng)化學(xué)習(xí)(online reinforcement learning)的迭代更新方法。我們構(gòu)建了一條完整的數(shù)據(jù) pipeline,用于收集和篩選復(fù)雜提示,以增強(qiáng)后訓(xùn)練階段的數(shù)據(jù)質(zhì)量。
強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的一個(gè)關(guān)鍵特點(diǎn)是,監(jiān)督信號通過獎(jiǎng)勵(lì)模型(reward models)和規(guī)則驗(yàn)證器(rule verifiers)僅作用于模型生成的最終輸出結(jié)果。我們特意避免對模型的詳細(xì)鏈?zhǔn)剿季S推理(chain-of-thought reasoning)過程進(jìn)行監(jiān)督。這一區(qū)別在插圖的右側(cè)部分得到了重點(diǎn)說明。
基準(zhǔn)測試
Seed1.5-VL 在 60 項(xiàng)公開基準(zhǔn)測試中取得了 38 項(xiàng)的最新最優(yōu)性能(state-of-the-art performance),其中包括 19 項(xiàng)視頻基準(zhǔn)測試中的 14 項(xiàng),以及 7 項(xiàng) GUI 代理任務(wù)中的 3 項(xiàng)。
局限性
盡管 Seed1.5-VL 展現(xiàn)了出色能力,但仍存在一些局限性,尤其是在細(xì)粒度視覺感知、三維空間推理以及復(fù)雜組合搜索任務(wù)方面。解決這些挑戰(zhàn)是我們持續(xù)研究的核心部分,研究方向包括統(tǒng)一現(xiàn)有模型能力與圖像生成,以及引入更健全的工具使用機(jī)制。