IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!
Docling團隊聯(lián)合IBM提出了一種多模式圖像文本到文本模型SmolDocling,旨在實現(xiàn)高效的文檔轉(zhuǎn)換。它保留了 Docling 最受歡迎的功能,同時通過無縫支持DoclingDocuments確保與 Docling 完全兼容。目前已經(jīng)沖到了Huggingface 熱門榜單 Top 3!
相關鏈接
- 主頁:https://huggingface.co/ds4sd/SmolDocling-256M-preview
- 論文:https://arxiv.org/abs/2503.11576
- 試用:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo
特點:
- ???用于高效標記化的 DocTags - 引入了 DocTags,一種與DoclingDocuments完全兼容的高效且最小化的文檔表示。
- ?? OCR(光學字符識別)——從圖像中準確提取文本。
- ??布局和本地化——保留文檔結(jié)構和文檔元素邊界框。
- ??代碼識別——檢測并格式化代碼塊(包括標識)。
- ??公式識別——識別和處理數(shù)學表達式。
- ??圖表識別——提取并解釋圖表數(shù)據(jù)。
- ??表格識別——支持列和行標題以進行結(jié)構化表格提取。
- ???圖形分類——區(qū)分圖形和圖形元素。
- ??標題對應——將標題鏈接到相關圖像和圖形。
- ??列表分組——正確組織和構造列表元素。
- ??全頁轉(zhuǎn)換——處理整個頁面以進行全面的文檔轉(zhuǎn)換,包括所有頁面元素(代碼、公式、表格、圖表等)。
- ??帶邊界框的 OCR——使用邊界框的 OCR 區(qū)域。
- ??通用文檔處理——針對科學和非科學文檔進行訓練。
- ??無縫 Docling 集成——導入Docling并以多種格式導出。
- ??使用 VLLM 進行快速推理——A100 GPU 上每頁平均 0.35 秒。
即將推出!
- ??更好的圖表識別???
- ??一次性多頁推理??
- ??化學識別
- ??數(shù)據(jù)集
論文介紹
SmolDocling是一種針對端到端文檔轉(zhuǎn)換的超緊湊視覺語言模型。該模型通過生成 DocTags 來全面處理整個頁面,DocTags 是一種新的通用標記格式,可以捕獲所有頁面元素及其位置的完整上下文。與依賴大型基礎模型的現(xiàn)有方法或依賴多個專門模型的手工管道的集成解決方案不同,SmolDocling 提供端到端轉(zhuǎn)換,可在 256M 參數(shù)視覺語言模型中準確捕獲文檔元素的內(nèi)容、結(jié)構和空間位置。SmolDocling 在正確再現(xiàn)各種文檔類型(包括商業(yè)文檔、學術論文、技術報告、專利和表格)中的文檔特征(例如代碼列表、表格、方程式、圖表、列表等)方面表現(xiàn)出強大的性能——大大超出了通常關注的科學論文。
此外還為圖表、表格、方程式和代碼識別貢獻了新的公開來源數(shù)據(jù)集。實驗結(jié)果表明SmolDocling 可以與其他規(guī)模高達 27 倍的視覺語言模型相媲美,同時大幅降低計算要求。該模型目前可用,數(shù)據(jù)集將很快公開。
架構
模型架構如上圖所示。SmolVLM-256M 依賴 SigLIP 基礎 patch-16/512 (93M) 作為視覺主干,與同一模型的 2.2B 版本相比,其訓練數(shù)據(jù)經(jīng)過重新平衡,以強調(diào)文檔理解 (41%) 和圖像字幕 (14%),結(jié)合了 The Cauldron 、Docmatix 數(shù)據(jù)集并添加了 MathWriting。它使用 SmolLM-2 系列 (135M) 的輕量級變體作為語言主干,并采用激進的像素混洗方法,將每個 512x512 圖像塊壓縮為 64 個視覺標記。最后但并非最不重要的是,通過將像素與標記的比率增加到每個標記 4096 像素并為子圖像分隔符引入特殊標記,SmolVLM-256M 中的標記化效率也得到了提高。
DocTags 創(chuàng)建一個清晰且結(jié)構化的標簽和規(guī)則系統(tǒng),將文本與文檔結(jié)構分開。這減少了混淆,使圖像到序列模型的工作變得更容易。另一方面,直接轉(zhuǎn)換為 HTML 或 Markdown 等格式可能會很麻煩 - 它通常會丟失細節(jié),無法清楚地顯示文檔的布局,并且會增加標記數(shù)量,從而降低處理效率。DocTags 與 Docling 集成,允許導出為 HTML、Markdown 和 JSON。這些導出可以卸載到 CPU,從而減少標記生成開銷并提高效率。
結(jié)論
SmolDocling是一種高效而緊湊的 VLM,針對文檔轉(zhuǎn)換進行了優(yōu)化,同時提供了豐富的輸出表示。還提供了一套具有統(tǒng)一格式的新數(shù)據(jù)集用于文檔轉(zhuǎn)換,包括代碼列表轉(zhuǎn)錄的新任務。我們將頁面元素定位確定為需要進一步改進的關鍵領域,其中有針對性的技術將在未來迭代中顯著提高性能。我們的結(jié)果最終表明,具有統(tǒng)一、優(yōu)化的輸出格式(例如 DocTags)的較小模型可以有效地與較大的模型競爭,為資源高效的多任務文檔理解模型建立了一條清晰的途徑。
本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio
