自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="n1uij"></sub>

<blockquote id="n1uij"><i id="n1uij"><video id="n1uij"></video></i></blockquote>

<sub id="n1uij"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

看圖猜位置不輸o3！字節(jié)發(fā)布Seed1.5-VL多模態(tài)推理模型，在60個(gè)主流基準(zhǔn)測(cè)試中拿下38項(xiàng)第一

2025-05-15 08:30:00

人工智能新聞

字節(jié)發(fā)布輕量級(jí)多模態(tài)推理模型Seed1.5-VL，僅用532M視覺編碼器+200億活躍參數(shù)就能與一眾規(guī)模更大的頂尖模型掰手腕，還是能帶圖深度思考的那種。

在60個(gè)主流基準(zhǔn)測(cè)試中拿下38項(xiàng)第一！

字節(jié)發(fā)布輕量級(jí)多模態(tài)推理模型Seed1.5-VL，僅用532M視覺編碼器+200億活躍參數(shù)就能與一眾規(guī)模更大的頂尖模型掰手腕，還是能帶圖深度思考的那種。

相關(guān)技術(shù)報(bào)告也第一時(shí)間公開了。

整體而言，雖然是“以小博大”，但新模型在復(fù)雜謎題推理、OCR、圖表理解、3D空間理解等方面表現(xiàn)出色。

比如猜下圖中有幾只貓，人眼很容易誤將地上的黑貓當(dāng)成影子：

還能用來玩“看圖找茬”，速度和準(zhǔn)確率雙雙勝于人類：

同時(shí)也能用來解答復(fù)雜推理謎題，考公黨有福了（bushi~）

當(dāng)然，以上也基于其強(qiáng)大的OCR識(shí)別能力。即便是長(zhǎng)度驚人、中英混雜的消費(fèi)小票，也能分分鐘轉(zhuǎn)換成表格。

除此之外，新模型還擅長(zhǎng)處理Agent任務(wù)。它在GUI界面操作和游戲場(chǎng)景中，顯著優(yōu)于OpenAI的CUA和Claude 3.7等模型。

那么它是如何做到的呢？

532M視覺編碼器 + 20B混合專家語言模型

通過深扒技術(shù)報(bào)告，背后關(guān)鍵主要在于模型架構(gòu)和訓(xùn)練細(xì)節(jié)。

據(jù)介紹，Seed1.5-VL由以下三個(gè)核心組件組成：

SeedViT：用于對(duì)圖像和視頻進(jìn)行編碼；
MLP適配器：將視覺特征投射為多模態(tài)token；
大語言模型：用于處理多模態(tài)輸入并執(zhí)行推理。

模型支持多種分辨率的圖像輸入，并通過原生分辨率變換（native-resolution transform）確保最大限度保留圖像細(xì)節(jié)。

在視頻處理方面，團(tuán)隊(duì)提出了一種動(dòng)態(tài)幀分辨率采樣策略（dynamic frame-resolution sampling strategy），能夠根據(jù)需要?jiǎng)討B(tài)調(diào)整采樣幀率和分辨率。

此外，為了增強(qiáng)模型的時(shí)間信息感知能力，在每幀圖像之前引入了時(shí)間戳標(biāo)記（timestamp token）。

這些設(shè)計(jì)讓模型能夠高效處理各種多模態(tài)數(shù)據(jù)，包括文本、圖像和視頻等。

而基于上述架構(gòu)，團(tuán)隊(duì)接著開始了模型訓(xùn)練。

首先，團(tuán)隊(duì)使用了3萬億個(gè)多樣化且高質(zhì)量的多模態(tài)標(biāo)注，這些數(shù)據(jù)是根據(jù)模型需要發(fā)展的特定能力來組織和分類的。

其預(yù)訓(xùn)練過程分為三個(gè)階段：

階段0：僅訓(xùn)練MLP適配器，以對(duì)齊視覺編碼器和語言模型；
階段1：訓(xùn)練所有模型參數(shù)，重點(diǎn)是掌握視覺定位和OCR能力；
階段2：增加數(shù)據(jù)多樣性，擴(kuò)展序列長(zhǎng)度，以適應(yīng)視頻理解和復(fù)雜推理任務(wù)。

值得一提的是，團(tuán)隊(duì)在預(yù)訓(xùn)練階段觀察到了——

大多數(shù)子類別的數(shù)據(jù)訓(xùn)練損失與訓(xùn)練標(biāo)記數(shù)量之間遵循冪律關(guān)系，即訓(xùn)練損失隨著訓(xùn)練標(biāo)記數(shù)量的增加而減少。

此外，某一子類別的訓(xùn)練損失與該類別對(duì)應(yīng)的下游任務(wù)評(píng)估指標(biāo)之間呈現(xiàn)對(duì)數(shù)線性關(guān)系（例如：評(píng)估指標(biāo) ～ log(訓(xùn)練損失)）的趨勢(shì)，尤其在局部區(qū)域內(nèi)尤為顯著。

后者意味著，可以通過訓(xùn)練損失來一定程度上預(yù)測(cè)模型在下游任務(wù)上的表現(xiàn)。

接下來團(tuán)隊(duì)又進(jìn)行了后訓(xùn)練，使用了監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)等技術(shù)。

其一，使用高質(zhì)量的指令數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)，包括一般指令和長(zhǎng)鏈推理（Long CoT）數(shù)據(jù)；

其二，結(jié)合人類反饋和可驗(yàn)證獎(jiǎng)勵(lì)信號(hào)，通過PPO算法進(jìn)行訓(xùn)練，以提高模型的對(duì)齊能力和推理能力。

需要注意的是，團(tuán)隊(duì)在后訓(xùn)練采用了結(jié)合拒絕采樣（rejection sampling）和在線強(qiáng)化學(xué)習(xí)（online reinforcement learning）的迭代更新方法。

他們構(gòu)建了一條完整的數(shù)據(jù)pipeline，用于收集和篩選復(fù)雜提示，以增強(qiáng)后訓(xùn)練階段的數(shù)據(jù)質(zhì)量。

并且在強(qiáng)化學(xué)習(xí)過程中，監(jiān)督信號(hào)通過獎(jiǎng)勵(lì)模型和規(guī)則驗(yàn)證器（rule verifiers）僅作用于模型生成的最終輸出結(jié)果。

也就是說，團(tuán)隊(duì)特意避免對(duì)模型的詳細(xì)鏈?zhǔn)剿季S推理（chain-of-thought reasoning）過程進(jìn)行監(jiān)督。

最后，為了支持大規(guī)模預(yù)訓(xùn)練和后訓(xùn)練，團(tuán)隊(duì)還開發(fā)了一系列優(yōu)化技術(shù)：

混合并行化：針對(duì)視覺編碼器和語言模型的不同特點(diǎn)，采用不同的并行策略；
工作負(fù)載平衡：通過貪心算法重新分配視覺數(shù)據(jù)，平衡GPU工作負(fù)載；
并行感知數(shù)據(jù)加載：減少多模態(tài)數(shù)據(jù)的I/O開銷；
容錯(cuò)機(jī)制：使用MegaScale框架實(shí)現(xiàn)容錯(cuò)，確保訓(xùn)練的穩(wěn)定性。

這些技術(shù)顯著提高了訓(xùn)練吞吐量，并降低了硬件成本。

60項(xiàng)測(cè)試中拿下38項(xiàng)SOTA

那么其實(shí)際表現(xiàn)如何呢？

實(shí)驗(yàn)結(jié)果顯示，新模型在60項(xiàng)公開基準(zhǔn)測(cè)試中取得了38項(xiàng)新SOTA，其中包括19項(xiàng)視頻基準(zhǔn)測(cè)試中的14項(xiàng)，以及7項(xiàng)GUI智能體任務(wù)中的3項(xiàng)。

部分測(cè)試結(jié)果如下：

單拎出多模態(tài)智能體任務(wù)來看，它在多個(gè)GUI任務(wù)上，優(yōu)于OpenAI的CUA和Claude 3.7等現(xiàn)有模型。

在多個(gè)游戲中，它也展現(xiàn)出強(qiáng)大的推理和決策能力。

與此同時(shí)，在內(nèi)部測(cè)試中，新模型尤其在視覺推理、文檔理解、3D空間理解等方面表現(xiàn)出色。

光看測(cè)試結(jié)果可能還不夠，我們最后也來簡(jiǎn)單實(shí)測(cè)一下。

比如玩最近很火的“看圖找地理位置”，隨意一張游客照也能正確推理識(shí)別。

鑒于圖中有燈塔這種可能容易暴露地標(biāo)的元素，我們?cè)贀Q張難度更高的。

在無明顯標(biāo)識(shí)的情況下，o3曾因猜出的位置距離正確答案（加州埃爾格拉納達(dá)附近的一家露天酒吧里）僅相差200-300公里而出圈。

而Seed1.5-VL最后的答案是加州沿海地區(qū)（比如蒙特雷縣、圣巴巴拉周邊的小鎮(zhèn)）：

這兩個(gè)地點(diǎn)距離正確位置分別為160公里和440公里，和o3的表現(xiàn)已經(jīng)相當(dāng)接近。

不過最后需要提醒，團(tuán)隊(duì)表示新模型仍存在一些局限性，尤其是在細(xì)粒度視覺感知、三維空間推理以及復(fù)雜組合搜索任務(wù)方面。

目前新模型可在Hugging Face在線體驗(yàn)，歡迎大家評(píng)論區(qū)分享討論~

在線體驗(yàn)：
https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
論文：
https://arxiv.org/abs/2505.07062
GitHub：
https://github.com/ByteDance-Seed/Seed1.5-VL

責(zé)任編輯：張燕妮來源：量子位

模型推理 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)