自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="ak4sg"></blockquote>

<blockquote id="ak4sg"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

字節(jié)發(fā)布 Seed1.5-VL 視覺-語言多模態(tài)大模型，20B 參數(shù)狂攬 60 項(xiàng)公開評測基準(zhǔn)中 38 項(xiàng) SOTA！

2025-05-19 09:07:00

人工智能新聞

今天給大家介紹的是Seed 1.5-VL，相比于之前版本，Seed1.5-VL 具備更強(qiáng)的通用多模態(tài)理解和推理能力，不僅視覺定位和推理更快更準(zhǔn)，還新增了視頻理解、多模態(tài)智能體能力。

5 月 13 日，火山引擎在上海搞了場 FORCE LINK AI 創(chuàng)新巡展，一股腦發(fā)布了 5 款模型和產(chǎn)品，包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型，以及新版豆包?音樂模型。同時(shí)，Data Agent 和 Trae 等產(chǎn)品也有了新進(jìn)展。

今天給大家介紹的是Seed 1.5-VL，相比于之前版本，Seed1.5-VL 具備更強(qiáng)的通用多模態(tài)理解和推理能力，不僅視覺定位和推理更快更準(zhǔn)，還新增了視頻理解、多模態(tài)智能體能力。舉個(gè)例子。僅需一張圖，再來個(gè)提示詞，Seed1.5-VL 就能精準(zhǔn)識別觀眾、棒球、座椅、圍欄等多種元素，還能正確分類并給出坐標(biāo)。

示例展示

基礎(chǔ)感知能力

視覺定位

視覺謎題

相關(guān)鏈接

官網(wǎng)：https://seed.bytedance.com/tech/seed1_5_vl
代碼：https://github.com/ByteDance-Seed/Seed1.5-VL
API：https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428

模型架構(gòu)

Seed1.5-VL 包含一個(gè) 5.32 億參數(shù)的視覺編碼器，以及一個(gè)激活參數(shù)規(guī)模達(dá) 200 億的混合專家（MoE）大語言模型。

Seed1.5-VL 模型結(jié)構(gòu)圖

模型由以下三個(gè)核心組件組成：

SeedViT：用于對圖像和視頻進(jìn)行編碼；
MLP 適配器：將視覺特征投射為多模態(tài) token；
大語言模型：用于處理多模態(tài)輸入并執(zhí)行推理。

Seed1.5-VL 支持多種分辨率的圖像輸入，并通過原生分辨率變換（native-resolution transform）確保最大限度保留圖像細(xì)節(jié)。在視頻處理方面，提出了一種動態(tài)幀分辨率采樣策略（dynamic frame-resolution sampling strategy），能夠根據(jù)需要?jiǎng)討B(tài)調(diào)整采樣幀率和分辨率。此外，為了增強(qiáng)模型的時(shí)間信息感知能力，在每幀圖像之前引入了時(shí)間戳標(biāo)記（timestamp token）。

預(yù)訓(xùn)練數(shù)據(jù)與 Scaling Law

Seed1.5-VL 的預(yù)訓(xùn)練語料庫包含 3 萬億個(gè)多樣化且高質(zhì)量的源標(biāo)記（source tokens）。這些數(shù)據(jù)根據(jù)模型目標(biāo)能力的需求進(jìn)行了分類。

在預(yù)訓(xùn)練階段觀察到大多數(shù)子類別的數(shù)據(jù)訓(xùn)練損失與訓(xùn)練標(biāo)記數(shù)量之間遵循冪律關(guān)系。此外，某一子類別的訓(xùn)練損失與該類別對應(yīng)的下游任務(wù)評估指標(biāo)之間呈現(xiàn)對數(shù)線性關(guān)系（例如：評估指標(biāo) ～ log(訓(xùn)練損失)）的趨勢，尤其在局部區(qū)域內(nèi)尤為顯著。

后訓(xùn)練

Seed1.5-VL 的后訓(xùn)練過程采用了結(jié)合拒絕采樣（rejection sampling）和在線強(qiáng)化學(xué)習(xí)（online reinforcement learning）的迭代更新方法。我們構(gòu)建了一條完整的數(shù)據(jù) pipeline，用于收集和篩選復(fù)雜提示，以增強(qiáng)后訓(xùn)練階段的數(shù)據(jù)質(zhì)量。

強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的一個(gè)關(guān)鍵特點(diǎn)是，監(jiān)督信號通過獎(jiǎng)勵(lì)模型（reward models）和規(guī)則驗(yàn)證器（rule verifiers）僅作用于模型生成的最終輸出結(jié)果。我們特意避免對模型的詳細(xì)鏈?zhǔn)剿季S推理（chain-of-thought reasoning）過程進(jìn)行監(jiān)督。這一區(qū)別在插圖的右側(cè)部分得到了重點(diǎn)說明。 Seed1.5-VL 后訓(xùn)練流程

基準(zhǔn)測試

Seed1.5-VL 在 60 項(xiàng)公開基準(zhǔn)測試中取得了 38 項(xiàng)的最新最優(yōu)性能（state-of-the-art performance），其中包括 19 項(xiàng)視頻基準(zhǔn)測試中的 14 項(xiàng)，以及 7 項(xiàng) GUI 代理任務(wù)中的 3 項(xiàng)。

局限性

盡管 Seed1.5-VL 展現(xiàn)了出色能力，但仍存在一些局限性，尤其是在細(xì)粒度視覺感知、三維空間推理以及復(fù)雜組合搜索任務(wù)方面。解決這些挑戰(zhàn)是我們持續(xù)研究的核心部分，研究方向包括統(tǒng)一現(xiàn)有模型能力與圖像生成，以及引入更健全的工具使用機(jī)制。

責(zé)任編輯：張燕妮來源： AIGC Studio

模型訓(xùn)練測試

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="agyua"><p id="agyua"></p></sub>

<legend id="agyua"><track id="agyua"></track></legend>

<cite id="agyua"><track id="agyua"></track></cite>

<legend id="agyua"></legend>