自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<rt id="s6hdx"><strong id="s6hdx"></strong></rt>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2024-12-17 13:56

瀏覽

0收藏

編輯 | 言征

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

12月13日晚，國內(nèi)開源模型玩家深度求索發(fā)布了視覺模型 DeepSeek-VL2。這次DeepSeek視覺模型給這一領(lǐng)域帶來了不少看新看點：

1、模型層面，視覺模型也可以使用 MoE 架構(gòu)，而且可以配合動態(tài)切圖

2、新增了不少生成玩法，如：視覺定位，模型可以根據(jù)提示識別出物體的邊界范圍，再比如梗圖理解和解析。

3、圖表理解：可以根據(jù)plot圖逆向生成代碼。

4、從OCR到故事生成：可以N張圖一期喂給模型，模型直接生成強相關(guān)的故事。

先上一張圖，讓大家品一品，一句提示，讓大模型明白圖中的人物：誰是淡定姐。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

當(dāng)然，DeepSeek-VL2 肯定是開源的了，具體型號有3B、16B 、 27B。模型和論文均已發(fā)布：

模型下載：https://huggingface.co/deepseek-ai

GitHub主頁：https://github.com/deepseek-ai/DeepSeek-VL2

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū)

1.模型新升級

首先看數(shù)據(jù)方面，VL2 比上一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，引入梗圖理解、視覺定位、視覺故事生成等新能力。

在模型架構(gòu)上，視覺部分使用切圖策略支持動態(tài)分辨率圖像，語言部分采用 MoE 架構(gòu)低成本高性能。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

在訓(xùn)練方法上，繼承 DeepSeek-VL 的三階段訓(xùn)練流程，同時通過負載均衡適配圖像切片數(shù)量不定的困難，對圖像和文本數(shù)據(jù)使用不同流水并行策略，對 MoE 語言模型引入專家并行，實現(xiàn)高效訓(xùn)練。

在不少視覺理解測試中，評分結(jié)果跟GPT4o、Qwen打平，甚至更好，關(guān)鍵是VL2可以用更少的參數(shù)量就能達到極好的效果。DeepSeek-VL2 模型展現(xiàn)出了強大能力，在各項評測指標上均取得了極具優(yōu)勢的成績：

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

具體的測評結(jié)果如下：

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

2.動態(tài)分辨率支持

據(jù)介紹，DeepSeek-VL2 僅使用一個 SigLIP-SO400M 作為圖像編碼器，通過將圖像切分為多張子圖和一張全局縮略圖來實現(xiàn)動態(tài)分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比，這樣就可以適配更多應(yīng)用場景。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

3.圖表理解

更多科研文檔數(shù)據(jù)的學(xué)習(xí)使得 DeepSeek-VL2 可以輕易理解各種科研圖表。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

甚至連內(nèi)涵的梗圖大模型也可以理解到位，由于DeeSeek-VL2用了更大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)，使得模型可以解析各種迷之能力，內(nèi)涵什么的，大模型簡直小菜一碟。

一道調(diào)侃考試難度的梗圖，讓他解釋下為什么好笑——

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

4.Plot2Code（逆向：圖生代碼）

DeepSeek-VL2 同時具備圖像理解和代碼生成的功能，可以作為你逆向畫圖的好幫手。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

Prompt: Draw a plot similar to the image in Python.

5.視覺定位：視覺感知+語言推理

DS-VL2這次的一大看點就是視覺定位。用戶可以用一句話描述下物體，然后讓 DeepSeek-VL2 幫在圖像里找到符合描述的部分（注：模型本身只是輸出相應(yīng)物體的邊界框）。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

有了這項功能，就可以讓大模型做很多事情，比如higlight一下孫猴子、葫蘆娃什么的，甚至有幾個葫蘆娃也都可以標出來！

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

此外，視覺感知+語言推理，強強聯(lián)手還可以讓模型具備視覺語義的對話能力。

這就是我們之前在GPT-4o發(fā)布視覺對話中的功能，你跟模型視頻，問他哪款甜品適合自己，他能很懂你的需求做出推薦。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

6.故事生成

你也可以輸入多張圖像，讓模型把它們串聯(lián)起來，小老鼠、話多、魔法師、發(fā)光樹，四張圖片一上傳，讓VL2用這些圖片講一個故事，它也不會怵，秒懂圖里的角色，快速講出一篇《雪夜的奇遇》的童話來。

視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！-AI.x社區(qū) 圖片

童話出版物機構(gòu)可以用上一用！

7.寫在最后：如何理解和用好多模態(tài)？

多模態(tài)可以說是今年以來大模型向前演進的一個趨勢，從語言到視覺、聽覺等深入研究，既可以進一步解鎖大模型的通用能力，同時也會讓未來的AI應(yīng)用更加繁榮和落地。

DeepSeek團隊提到，視覺是人類獲取外界信息的主要來源，占據(jù)所有信息量的約 80%。然而在大模型時代，視覺方面的進展卻遠遠落后于語言模型。

“我們堅信，提升模型視覺能力的意義不僅在于支持更多的輸入模態(tài)，更在于全方位提升模型的感知和認知能力。”

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：言征

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

已于2024-12-17 14:06:06修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

基于圖增強的大模型可控生成框架

kcoufee ? 2963瀏覽 ? 0回復(fù)
港大開源圖基礎(chǔ)大模型OpenGraph: 強泛化能力，前向傳播預(yù)測全新數(shù)據(jù)

Crystalcxt ? 2614瀏覽 ? 0回復(fù)
VAE變分自編碼器原理解析看這一篇就夠了！另附Python代碼實現(xiàn)

angel ? 6988瀏覽 ? 0回復(fù)
MSRA：視覺生成六大技術(shù)問題

Crystalcxt ? 1893瀏覽 ? 0回復(fù)
一篇大模型NL2SQL全棧技術(shù)最新綜述

PaperAgent ? 6083瀏覽 ? 0回復(fù)
一起聊聊圖檢索增強生成

sbf_2000 ? 2700瀏覽 ? 0回復(fù)
Qwen2-VL全面解讀！阿里開源多模態(tài)視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 9699瀏覽 ? 0回復(fù)
一篇大模型Agent最新綜述

探索AGI ? 3067瀏覽 ? 0回復(fù)
視覺任務(wù)大一統(tǒng)！圖像生成，編輯，翻譯三合一！全能視覺助手PixWizard來襲！

angel ? 2817瀏覽 ? 0回復(fù)
UIUC提出InstructG2I：從多模態(tài)屬性圖合成圖像?，結(jié)合文本和圖信息生成內(nèi)容更豐富有趣！

angel ? 2358瀏覽 ? 0回復(fù)
微軟開源視覺語言模型Florence-2的應(yīng)用實戰(zhàn)

51CTO內(nèi)容精選 ? 2599瀏覽 ? 0回復(fù)
一篇大模型RAG最新綜述

NLP前沿1 ? 2728瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 4216瀏覽 ? 0回復(fù)
AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用

angel ? 2871瀏覽 ? 0回復(fù)
一篇RAG噪聲分析的綜述

探索AGI ? 2124瀏覽 ? 0回復(fù)
DeepSeek-VL2開源，VLM邁入MoE時代！

xuxiangda ? 3001瀏覽 ? 0回復(fù)
一篇大模型GraphRAG最新綜述

探索AGI ? 2523瀏覽 ? 0回復(fù)
OmniTokenizer-視覺tokenizer生成

shizhi02 ? 1721瀏覽 ? 0回復(fù)
從入門到精通：如何在React中構(gòu)建人工智能驅(qū)動的梗圖生成器

51CTO內(nèi)容精選 ? 682瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

支付巨頭被打臉！曾放話AI能頂700名人類客服，年省4千萬刀；一年后又把員工招回來了！ 0回復(fù)

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：國產(chǎn)萬卡系統(tǒng)究竟怎么樣了？中國工程院院士鄭緯民：國產(chǎn)萬卡很重要，但也很難，異地卡聯(lián)合訓(xùn)練不太可行

下一篇：國產(chǎn)開源模型頂流「通義」，被曝應(yīng)用團隊已“離開”阿里云，并入阿里智能信息事業(yè)群！

社區(qū)精華內(nèi)容

目錄

<legend id="pawql"><track id="pawql"></track></legend>

<sub id="pawql"></sub>