自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!

發(fā)布于 2025-3-25 01:06
瀏覽
0收藏

Docling團隊聯(lián)合IBM提出了一種多模式圖像文本到文本模型SmolDocling,旨在實現(xiàn)高效的文檔轉(zhuǎn)換。它保留了 Docling 最受歡迎的功能,同時通過無縫支持DoclingDocuments確保與 Docling 完全兼容。目前已經(jīng)沖到了Huggingface 熱門榜單 Top 3!

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)




相關鏈接

  • 主頁:https://huggingface.co/ds4sd/SmolDocling-256M-preview
  • 論文:https://arxiv.org/abs/2503.11576

  • 試用:https://huggingface.co/spaces/ds4sd/SmolDocling-256M-Demo
  • IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

特點:

  • ???用于高效標記化的 DocTags - 引入了 DocTags,一種與DoclingDocuments完全兼容的高效且最小化的文檔表示。
  • ?? OCR(光學字符識別)——從圖像中準確提取文本。
  • ??布局和本地化——保留文檔結(jié)構和文檔元素邊界框。
  • ??代碼識別——檢測并格式化代碼塊(包括標識)。
  • ??公式識別——識別和處理數(shù)學表達式。
  • ??圖表識別——提取并解釋圖表數(shù)據(jù)。
  • ??表格識別——支持列和行標題以進行結(jié)構化表格提取。
  • ???圖形分類——區(qū)分圖形和圖形元素。
  • ??標題對應——將標題鏈接到相關圖像和圖形。
  • ??列表分組——正確組織和構造列表元素。
  • ??全頁轉(zhuǎn)換——處理整個頁面以進行全面的文檔轉(zhuǎn)換,包括所有頁面元素(代碼、公式、表格、圖表等)。
  • ??帶邊界框的 OCR——使用邊界框的 OCR 區(qū)域。
  • ??通用文檔處理——針對科學和非科學文檔進行訓練。
  • ??無縫 Docling 集成——導入Docling并以多種格式導出。
  • ??使用 VLLM 進行快速推理——A100 GPU 上每頁平均 0.35 秒。

即將推出!

  • ??更好的圖表識別???
  • ??一次性多頁推理??
  • ??化學識別
  • ??數(shù)據(jù)集

論文介紹

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

SmolDocling是一種針對端到端文檔轉(zhuǎn)換的超緊湊視覺語言模型。該模型通過生成 DocTags 來全面處理整個頁面,DocTags 是一種新的通用標記格式,可以捕獲所有頁面元素及其位置的完整上下文。與依賴大型基礎模型的現(xiàn)有方法或依賴多個專門模型的手工管道的集成解決方案不同,SmolDocling 提供端到端轉(zhuǎn)換,可在 256M 參數(shù)視覺語言模型中準確捕獲文檔元素的內(nèi)容、結(jié)構和空間位置。SmolDocling 在正確再現(xiàn)各種文檔類型(包括商業(yè)文檔、學術論文、技術報告、專利和表格)中的文檔特征(例如代碼列表、表格、方程式、圖表、列表等)方面表現(xiàn)出強大的性能——大大超出了通常關注的科學論文。

此外還為圖表、表格、方程式和代碼識別貢獻了新的公開來源數(shù)據(jù)集。實驗結(jié)果表明SmolDocling 可以與其他規(guī)模高達 27 倍的視覺語言模型相媲美,同時大幅降低計算要求。該模型目前可用,數(shù)據(jù)集將很快公開。

架構

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

模型架構如上圖所示。SmolVLM-256M 依賴 SigLIP 基礎 patch-16/512 (93M) 作為視覺主干,與同一模型的 2.2B 版本相比,其訓練數(shù)據(jù)經(jīng)過重新平衡,以強調(diào)文檔理解 (41%) 和圖像字幕 (14%),結(jié)合了 The Cauldron 、Docmatix 數(shù)據(jù)集并添加了 MathWriting。它使用 SmolLM-2 系列 (135M) 的輕量級變體作為語言主干,并采用激進的像素混洗方法,將每個 512x512 圖像塊壓縮為 64 個視覺標記。最后但并非最不重要的是,通過將像素與標記的比率增加到每個標記 4096 像素并為子圖像分隔符引入特殊標記,SmolVLM-256M 中的標記化效率也得到了提高。

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

DocTags 創(chuàng)建一個清晰且結(jié)構化的標簽和規(guī)則系統(tǒng),將文本與文檔結(jié)構分開。這減少了混淆,使圖像到序列模型的工作變得更容易。另一方面,直接轉(zhuǎn)換為 HTML 或 Markdown 等格式可能會很麻煩 - 它通常會丟失細節(jié),無法清楚地顯示文檔的布局,并且會增加標記數(shù)量,從而降低處理效率。DocTags 與 Docling 集成,允許導出為 HTML、Markdown 和 JSON。這些導出可以卸載到 CPU,從而減少標記生成開銷并提高效率。

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

IBM提出多模式圖像文本到文本模型SmolDocling,可實現(xiàn)代碼 | 公示 | 圖表 | 表格 | 標題 高效轉(zhuǎn)換!-AI.x社區(qū)

結(jié)論

SmolDocling是一種高效而緊湊的 VLM,針對文檔轉(zhuǎn)換進行了優(yōu)化,同時提供了豐富的輸出表示。還提供了一套具有統(tǒng)一格式的新數(shù)據(jù)集用于文檔轉(zhuǎn)換,包括代碼列表轉(zhuǎn)錄的新任務。我們將頁面元素定位確定為需要進一步改進的關鍵領域,其中有針對性的技術將在未來迭代中顯著提高性能。我們的結(jié)果最終表明,具有統(tǒng)一、優(yōu)化的輸出格式(例如 DocTags)的較小模型可以有效地與較大的模型競爭,為資源高效的多任務文檔理解模型建立了一條清晰的途徑。

本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio

收藏
回復
舉報
回復
相關推薦