自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

字節(jié)發(fā)布 Seed1.5-VL 視覺-語言多模態(tài)大模型,20B 參數(shù)狂攬 60 項(xiàng)公開評測基準(zhǔn)中 38 項(xiàng) SOTA!

人工智能 新聞
今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強(qiáng)的通用多模態(tài)理解和推理能力,不僅視覺定位和推理更快更準(zhǔn),還新增了視頻理解、多模態(tài)智能體能力。

5 月 13 日,火山引擎在上海搞了場 FORCE LINK AI 創(chuàng)新巡展,一股腦發(fā)布了 5 款模型和產(chǎn)品,包括豆包?視頻生成模型 Seedance 1.0 lite、升級后的豆包 1.5?視覺深度思考模型,以及新版豆包?音樂模型。同時(shí),Data Agent 和 Trae 等產(chǎn)品也有了新進(jìn)展。

圖片

今天給大家介紹的是Seed 1.5-VL,相比于之前版本,Seed1.5-VL 具備更強(qiáng)的通用多模態(tài)理解和推理能力,不僅視覺定位和推理更快更準(zhǔn),還新增了視頻理解、多模態(tài)智能體能力。舉個(gè)例子。僅需一張圖,再來個(gè)提示詞,Seed1.5-VL 就能精準(zhǔn)識別觀眾、棒球、座椅、圍欄等多種元素,還能正確分類并給出坐標(biāo)。

圖片

示例展示

基礎(chǔ)感知能力

圖片

視覺定位

圖片

視覺謎題

圖片

相關(guān)鏈接

  • 官網(wǎng):https://seed.bytedance.com/tech/seed1_5_vl
  • 代碼:https://github.com/ByteDance-Seed/Seed1.5-VL
  • API:https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428
    圖片

模型架構(gòu)

Seed1.5-VL 包含一個(gè) 5.32 億參數(shù)的視覺編碼器,以及一個(gè)激活參數(shù)規(guī)模達(dá) 200 億的混合專家(MoE)大語言模型。

Seed1.5-VL 模型結(jié)構(gòu)圖Seed1.5-VL 模型結(jié)構(gòu)圖

模型由以下三個(gè)核心組件組成:

  1. SeedViT:用于對圖像和視頻進(jìn)行編碼;
  2. MLP 適配器:將視覺特征投射為多模態(tài) token;
  3. 大語言模型:用于處理多模態(tài)輸入并執(zhí)行推理。

Seed1.5-VL 支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細(xì)節(jié)。在視頻處理方面,提出了一種動態(tài)幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據(jù)需要?jiǎng)討B(tài)調(diào)整采樣幀率和分辨率。此外,為了增強(qiáng)模型的時(shí)間信息感知能力,在每幀圖像之前引入了時(shí)間戳標(biāo)記(timestamp token)。

預(yù)訓(xùn)練數(shù)據(jù)與 Scaling Law

Seed1.5-VL 的預(yù)訓(xùn)練語料庫包含 3 萬億個(gè)多樣化且高質(zhì)量的源標(biāo)記(source tokens)。這些數(shù)據(jù)根據(jù)模型目標(biāo)能力的需求進(jìn)行了分類。

在預(yù)訓(xùn)練階段觀察到大多數(shù)子類別的數(shù)據(jù)訓(xùn)練損失與訓(xùn)練標(biāo)記數(shù)量之間遵循冪律關(guān)系。此外,某一子類別的訓(xùn)練損失與該類別對應(yīng)的下游任務(wù)評估指標(biāo)之間呈現(xiàn)對數(shù)線性關(guān)系(例如:評估指標(biāo) ~ log(訓(xùn)練損失))的趨勢,尤其在局部區(qū)域內(nèi)尤為顯著。(a) OCR 相關(guān)數(shù)據(jù)集的訓(xùn)練損失隨訓(xùn)練標(biāo)記數(shù)量的變化曲線; (b) ChartQA 的 Top-1 準(zhǔn)確率隨訓(xùn)練損失的變化曲線; (c) InfographicVQA 的 Top-1 準(zhǔn)確率隨訓(xùn)練損失的變化曲線; (d) 定位(grounding)相關(guān)數(shù)據(jù)集的訓(xùn)練損失隨訓(xùn)練標(biāo)記數(shù)量的變化曲線; (e) RefCOCO 的準(zhǔn)確率隨訓(xùn)練損失的變化曲線; (f) RefCOCO+ 的準(zhǔn)確率隨訓(xùn)練損失的變化曲線。 需要注意的是,圖中所展示的評估指標(biāo)為模型在預(yù)訓(xùn)練后直接獲得的性能表現(xiàn),因此與最終結(jié)果(即通過強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化后獲得的性能)并不直接可比。

后訓(xùn)練

Seed1.5-VL 的后訓(xùn)練過程采用了結(jié)合拒絕采樣(rejection sampling)和在線強(qiáng)化學(xué)習(xí)(online reinforcement learning)的迭代更新方法。我們構(gòu)建了一條完整的數(shù)據(jù) pipeline,用于收集和篩選復(fù)雜提示,以增強(qiáng)后訓(xùn)練階段的數(shù)據(jù)質(zhì)量。

強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的一個(gè)關(guān)鍵特點(diǎn)是,監(jiān)督信號通過獎(jiǎng)勵(lì)模型(reward models)和規(guī)則驗(yàn)證器(rule verifiers)僅作用于模型生成的最終輸出結(jié)果。我們特意避免對模型的詳細(xì)鏈?zhǔn)剿季S推理(chain-of-thought reasoning)過程進(jìn)行監(jiān)督。這一區(qū)別在插圖的右側(cè)部分得到了重點(diǎn)說明。Seed1.5-VL 后訓(xùn)練流程

基準(zhǔn)測試

Seed1.5-VL 在 60 項(xiàng)公開基準(zhǔn)測試中取得了 38 項(xiàng)的最新最優(yōu)性能(state-of-the-art performance),其中包括 19 項(xiàng)視頻基準(zhǔn)測試中的 14 項(xiàng),以及 7 項(xiàng) GUI 代理任務(wù)中的 3 項(xiàng)。

圖片圖片圖片

局限性

盡管 Seed1.5-VL 展現(xiàn)了出色能力,但仍存在一些局限性,尤其是在細(xì)粒度視覺感知、三維空間推理以及復(fù)雜組合搜索任務(wù)方面。解決這些挑戰(zhàn)是我們持續(xù)研究的核心部分,研究方向包括統(tǒng)一現(xiàn)有模型能力與圖像生成,以及引入更健全的工具使用機(jī)制。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-05-14 15:05:21

模型AI訓(xùn)練

2025-05-15 08:30:00

2025-04-14 00:30:00

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2023-12-04 13:40:09

AI訓(xùn)練

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2024-08-30 15:19:22

2024-03-25 12:40:19

訓(xùn)練模型

2024-08-05 08:46:00

模型測評

2025-02-27 10:08:19

2025-02-13 09:40:00

2024-11-13 09:39:13

2024-07-23 10:34:57

2025-03-19 09:30:00

2023-08-02 12:52:02

谷歌模型

2025-01-09 09:56:34

視覺模型圖像生成

2025-01-08 08:21:16

2025-01-13 03:00:00

模型數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號