自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！

發(fā)布于 2025-3-25 01:06

瀏覽

0收藏

Docling團隊聯(lián)合IBM提出了一種多模式圖像文本到文本模型SmolDocling，旨在實現(xiàn)高效的文檔轉(zhuǎn)換。它保留了 Docling 最受歡迎的功能，同時通過無縫支持DoclingDocuments確保與 Docling 完全兼容。目前已經(jīng)沖到了Huggingface 熱門榜單 Top 3!

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

相關鏈接

主頁：https://huggingface.co/ds4sd/SmolDocling-256M-preview
論文：https://arxiv.org/abs/2503.11576
試用：https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo

特點：

???用于高效標記化的 DocTags - 引入了 DocTags，一種與DoclingDocuments完全兼容的高效且最小化的文檔表示。
?? OCR（光學字符識別）——從圖像中準確提取文本。
??布局和本地化——保留文檔結(jié)構和文檔元素邊界框。
??代碼識別——檢測并格式化代碼塊（包括標識）。
??公式識別——識別和處理數(shù)學表達式。
??圖表識別——提取并解釋圖表數(shù)據(jù)。
??表格識別——支持列和行標題以進行結(jié)構化表格提取。
???圖形分類——區(qū)分圖形和圖形元素。
??標題對應——將標題鏈接到相關圖像和圖形。
??列表分組——正確組織和構造列表元素。
??全頁轉(zhuǎn)換——處理整個頁面以進行全面的文檔轉(zhuǎn)換，包括所有頁面元素（代碼、公式、表格、圖表等）。
??帶邊界框的 OCR——使用邊界框的 OCR 區(qū)域。
??通用文檔處理——針對科學和非科學文檔進行訓練。
??無縫 Docling 集成——導入Docling并以多種格式導出。
??使用 VLLM 進行快速推理——A100 GPU 上每頁平均 0.35 秒。

即將推出！

??更好的圖表識別???
??一次性多頁推理??
??化學識別
??數(shù)據(jù)集

論文介紹

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

SmolDocling是一種針對端到端文檔轉(zhuǎn)換的超緊湊視覺語言模型。該模型通過生成 DocTags 來全面處理整個頁面，DocTags 是一種新的通用標記格式，可以捕獲所有頁面元素及其位置的完整上下文。與依賴大型基礎模型的現(xiàn)有方法或依賴多個專門模型的手工管道的集成解決方案不同，SmolDocling 提供端到端轉(zhuǎn)換，可在 256M 參數(shù)視覺語言模型中準確捕獲文檔元素的內(nèi)容、結(jié)構和空間位置。SmolDocling 在正確再現(xiàn)各種文檔類型（包括商業(yè)文檔、學術論文、技術報告、專利和表格）中的文檔特征（例如代碼列表、表格、方程式、圖表、列表等）方面表現(xiàn)出強大的性能——大大超出了通常關注的科學論文。

此外還為圖表、表格、方程式和代碼識別貢獻了新的公開來源數(shù)據(jù)集。實驗結(jié)果表明SmolDocling 可以與其他規(guī)模高達 27 倍的視覺語言模型相媲美，同時大幅降低計算要求。該模型目前可用，數(shù)據(jù)集將很快公開。

架構

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

模型架構如上圖所示。SmolVLM-256M 依賴 SigLIP 基礎 patch-16/512 (93M) 作為視覺主干，與同一模型的 2.2B 版本相比，其訓練數(shù)據(jù)經(jīng)過重新平衡，以強調(diào)文檔理解 (41%) 和圖像字幕 (14%)，結(jié)合了 The Cauldron 、Docmatix 數(shù)據(jù)集并添加了 MathWriting。它使用 SmolLM-2 系列 (135M) 的輕量級變體作為語言主干，并采用激進的像素混洗方法，將每個 512x512 圖像塊壓縮為 64 個視覺標記。最后但并非最不重要的是，通過將像素與標記的比率增加到每個標記 4096 像素并為子圖像分隔符引入特殊標記，SmolVLM-256M 中的標記化效率也得到了提高。

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

DocTags 創(chuàng)建一個清晰且結(jié)構化的標簽和規(guī)則系統(tǒng)，將文本與文檔結(jié)構分開。這減少了混淆，使圖像到序列模型的工作變得更容易。另一方面，直接轉(zhuǎn)換為 HTML 或 Markdown 等格式可能會很麻煩 - 它通常會丟失細節(jié)，無法清楚地顯示文檔的布局，并且會增加標記數(shù)量，從而降低處理效率。DocTags 與 Docling 集成，允許導出為 HTML、Markdown 和 JSON。這些導出可以卸載到 CPU，從而減少標記生成開銷并提高效率。

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling，可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題高效轉(zhuǎn)換！-AI.x社區(qū)

結(jié)論

SmolDocling是一種高效而緊湊的 VLM，針對文檔轉(zhuǎn)換進行了優(yōu)化，同時提供了豐富的輸出表示。還提供了一套具有統(tǒng)一格式的新數(shù)據(jù)集用于文檔轉(zhuǎn)換，包括代碼列表轉(zhuǎn)錄的新任務。我們將頁面元素定位確定為需要進一步改進的關鍵領域，其中有針對性的技術將在未來迭代中顯著提高性能。我們的結(jié)果最終表明，具有統(tǒng)一、優(yōu)化的輸出格式（例如 DocTags）的較小模型可以有效地與較大的模型競爭，為資源高效的多任務文檔理解模型建立了一條清晰的途徑。

本文轉(zhuǎn)載自??AIGC Studio??，作者：AIGC Studio

標簽

贊

收藏

回復

舉報

回復

相關推薦

文本直接生成多視角3D圖像，Meta推出創(chuàng)新模型

Aceryt ? 2316瀏覽 ? 0回復
文本到圖像擴散模型中記憶化實用分析（浙大）

angel ? 3349瀏覽 ? 0回復
亞馬遜最新時序大模型：將時間序列完全轉(zhuǎn)換成文本

海因斯DK ? 6814瀏覽 ? 0回復
揭秘神秘的種子：Adobe聯(lián)合賓夕法尼亞大學發(fā)布文本到圖像擴散模型大規(guī)模種子分析

angel ? 2587瀏覽 ? 0回復
TextCoT：放大增強型多模態(tài)富文本圖像理解

AIRoobt ? 3128瀏覽 ? 0回復
阿里等提出MARS：超越PixArt-α、SD-XL等的文本到圖像生成框架

angel ? 3068瀏覽 ? 0回復
?TextCoT：放大增強型多模態(tài)富文本圖像理解

AIRoobt ? 2971瀏覽 ? 0回復
圖像文本擦除無痕跡！復旦提出EAFormer：最新場景文本分割新SOTA！(ECCV`24)

angel ? 2405瀏覽 ? 0回復
從弱模型和強模型合成文本到SQL數(shù)據(jù)

sbf_2000 ? 3310瀏覽 ? 0回復
LLM蒸餾到GNN，性能提升6.2%！Emory提出大模型蒸餾到文本圖｜CIKM 2024

duhorse ? 2026瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態(tài)圖像生成模型

Aceryt ? 2445瀏覽 ? 0回復
兼顧身份保護和文本對齊！中山大學等提出CoRe：任意提示的文本到圖像個性化生成！

angel ? 2281瀏覽 ? 0回復
FGM：刷新流匹配模型單步文本到圖像生成紀錄！(浙大&卡內(nèi)基梅隆&北大&西湖大學)

angel ? 2595瀏覽 ? 0回復
從頻率到細節(jié)：ConsisID實現(xiàn)無縫身份一致的文本到視頻生成

angel ? 2685瀏覽 ? 0回復
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 1649瀏覽 ? 0回復
MACT：如何用多Agent框架思路實現(xiàn)表格問答

大語言模型論文跟蹤 ? 1807瀏覽 ? 0回復
時序+圖像+文本，多模態(tài)增強的時序預測模型

海因斯DK ? 4224瀏覽 ? 0回復
2025首篇關于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 3332瀏覽 ? 0回復
大語言模型增強的文本到 SQL 生成：綜述

AIGC前沿技術追蹤 ? 1593瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

3D人臉黑科技！Pixel3DMM：單張RGB圖像秒變3D人臉，姿勢表情精準還原，幾何精度碾壓競品15%！ 5天前發(fā)布
AI視頻生成新突破！字節(jié)提出一致性視頻生成方法Phantom：通過跨模態(tài)對齊生成主題一致的視頻，超多應用場景 2025-04-28 00:29:10發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實戰(zhàn)教程 0回復

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復

2025年最值得關注的十大多模態(tài)大語言模型！ 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

從零到一構建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復

上一篇： LuminaBrush 在圖像上繪制照明效果的構建交互式工具

下一篇：字節(jié)開源換臉寫真模型InfiniteYou，可實現(xiàn)零樣本身份ID一致保持，無縫集成FLUX、ControlNets、LoRAs！

社區(qū)精華內(nèi)容

目錄