自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<var id="w7syn"></var>

<var id="w7syn"><fieldset id="w7syn"></fieldset></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

使用Llama 3.2-Vision大模型，搭建本地Ollama OCR應(yīng)用原創(chuàng)

發(fā)布于 2024-12-3 14:55

瀏覽

0收藏

用Python和Ollama的Llama 3.2-Vision模型搭建自己的OCR應(yīng)用。

?光學(xué)字符識別技術(shù)，簡稱OCR，目前是數(shù)字化印刷文本和提取圖像信息的核心手段，其重要性正日益凸顯。如今，有了AI的加持，尤其是像Llama 3.2-Vision這樣的模型，OCR變得更加強(qiáng)大。本文教會大家用Python和Ollama的Llama 3.2-Vision模型，一步步搭建起自己的OCR應(yīng)用。

先決條件

在開始之前，先確保已準(zhǔn)備好以下條件：

一臺安裝了Windows、macOS或Linux的電腦。
穩(wěn)定的互聯(lián)網(wǎng)連接，用于下載必要的包和模型。
對Python編程的基本了解。
系統(tǒng)上安裝了Python（最好是3.7或更高版本）。

步驟1：安裝Ollama

Ollama是一個(gè)能讓你在本地運(yùn)行多模態(tài)模型的平臺。安裝步驟如下：

下載Ollama：訪問Ollama官方網(wǎng)站，下載適合你操作系統(tǒng)的安裝包。
安裝Ollama：根據(jù)安裝向?qū)瓿砂惭b過程。

步驟2：安裝Llama 3.2-Vision模型

安裝好Ollama后，你就可以通過在終端運(yùn)行以下命令來安裝Llama 3.2-Vision模型了：

ollama run llama3.2-vision

此命令下載并設(shè)置模型以供本地使用。

步驟3：設(shè)置Python環(huán)境

現(xiàn)在已經(jīng)安裝了所有內(nèi)容，為OCR項(xiàng)目設(shè)置一個(gè)Python環(huán)境：

創(chuàng)建項(xiàng)目目錄：建立一個(gè)新的文件夾來存放項(xiàng)目文件。在命令行中輸入以下命令：

mkdir llama-ocr && cd llama-ocr

創(chuàng)建虛擬環(huán)境（這一步是可選的，但推薦）：

python -m venv venv
source venv/bin/activate  # 在Windows上使用 `venv\Scripts\activate`

安裝所需的庫：為了處理圖像和進(jìn)行base64編碼，我們需要安裝一些庫。使用pip安裝以下庫：

pip install requests Pillow

步驟4：編寫OCR腳本

現(xiàn)在編寫使用Llama 3.2-Vision執(zhí)行OCR的Python腳本。創(chuàng)建一個(gè)名為??ollama_ocr.py??的新文件，添加以下代碼：

import base64
import requests
from PIL import Image

SYSTEM_PROMPT = """作為OCR助手。分析提供的圖像并：
1. 盡可能準(zhǔn)確地識別圖像中所有可見的文本。
2. 保持文本的原始結(jié)構(gòu)和格式。
3. 如果任何單詞或短語不清晰，請?jiān)谵D(zhuǎn)錄中用[unclear]表示。
僅提供轉(zhuǎn)錄，不要有任何額外的評論。"""
def encode_image_to_base64(image_path):
    """將圖像文件轉(zhuǎn)換為base64編碼的字符串。"""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')
def perform_ocr(image_path):
    """使用Llama 3.2-Vision對給定圖像執(zhí)行OCR。"""
    base64_image = encode_image_to_base64(image_path)
    response = requests.post(
        "http://localhost:8080/chat",  # 確保此URL與你的Ollama服務(wù)端點(diǎn)匹配
        json={
            "model": "llama3.2-vision",
            "messages": [
                {
                    "role": "user",
                    "content": SYSTEM_PROMPT,
                    "images": [base64_image],
                },
            ],
        }
    )
    if response.status_code == 200:
        return response.json().get("message", {}).get("content", "")
    else:
        print("錯(cuò)誤：", response.status_code, response.text)
        return None
if __name__ == "__main__":
    image_path = "path/to/your/image.jpg"  # 替換為你的圖像路徑
    result = perform_ocr(image_path)
    if result:
        print("OCR識別結(jié)果：")
        print(result)

代碼解釋

Base64編碼：??encode_image_to_base64??函數(shù)讀取一個(gè)圖像文件并將其轉(zhuǎn)換為base64字符串，這是通過HTTP請求發(fā)送圖像所需的。
執(zhí)行OCR：??perform_ocr??函數(shù)向本地Ollama服務(wù)發(fā)送POST請求，附帶系統(tǒng)提示和base64編碼的圖像。
處理響應(yīng)：腳本檢查請求是否成功，并從JSON響應(yīng)中檢索識別出的文本。

步驟5：運(yùn)行OCR腳本

確保將腳本中的"path/to/your/image.jpg"替換成你想要識別的圖片文件的實(shí)際路徑。然后，在終端里運(yùn)行以下命令：

python ollama_ocr.py

應(yīng)該看到類似于以下的輸出：

OCR識別結(jié)果：
您的圖像中識別出的文本將顯示在這里。

步驟6：優(yōu)化結(jié)果

如果對OCR的結(jié)果不太滿意，可以嘗試調(diào)整腳本中的SYSTEM_PROMPT變量，使其更貼合你的具體需求，或者改善提供給Llama 3.2-Vision的指令的清晰度。

結(jié)論

使用Ollama和Llama 3.2-Vision構(gòu)建OCR應(yīng)用程序是直接且強(qiáng)大的，這得益于其多模態(tài)處理能力。按照上述步驟，你可以在電腦上創(chuàng)建一個(gè)功能性的OCR工具，利用先進(jìn)的AI技術(shù)進(jìn)行文本識別任務(wù)。

不妨多試試不同的圖片和提示，充分挖掘這個(gè)模型的潛力。隨著AI技術(shù)的持續(xù)進(jìn)步，像Llama 3.2-Vision這樣的工具在理解和處理視覺信息方面將變得更加高效和精準(zhǔn)。?

本文轉(zhuǎn)載自公眾號AI科技論談

原文鏈接：??https://mp.weixin.qq.com/s/R-wEB-a15E8t9bQWjl5plA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

本地使用Groq Llama 3 70B的逐步指南

51CTO內(nèi)容精選 ? 3347瀏覽 ? 0回復(fù)
使用本地部署的Hermes 2 Pro 構(gòu)建開放的LLM應(yīng)用程序

51CTO內(nèi)容精選 ? 2359瀏覽 ? 0回復(fù)
Spring AI + Ollama 快速構(gòu)建大模型應(yīng)用程序（含源碼）

玄姐聊AGI ? 5600瀏覽 ? 0回復(fù)
GraphRAG + Ollama 本地部署全攻略：避坑實(shí)戰(zhàn)指南

玄姐聊AGI ? 1.0w瀏覽 ? 0回復(fù)
基于Llama 3、Ollama、Milvus、LangChain，快速搭建本地RAG

小虎哦哦 ? 4724瀏覽 ? 0回復(fù)
GraphRAG + Ollama 本地部署全攻略：避坑實(shí)戰(zhàn)指南

玄姐聊AGI ? 6797瀏覽 ? 0回復(fù)
Llama 3.2：AI視覺革新，手機(jī)也能跑大模型

sbf_2000 ? 2590瀏覽 ? 0回復(fù)
Ollama，本地運(yùn)行大模型最強(qiáng)工具，輕松上手

小虎哦哦 ? 9446瀏覽 ? 0回復(fù)
Meta發(fā)布Llama 3.2：AI大模型再升級，從云端到掌上

芝士AI吃魚 ? 2579瀏覽 ? 0回復(fù)
Meta剛開源llama 3.2多模態(tài)，就被打敗了！

NLP前沿1 ? 2724瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 2717瀏覽 ? 0回復(fù)
Phi-3-Vision-128K大模型，AI助力OCR，文檔處理更上一層樓

小虎哦哦 ? 2263瀏覽 ? 0回復(fù)
Llama 3.2 Vision & Molmo：多模態(tài)開源生態(tài)系統(tǒng)基礎(chǔ)

Baihai_IDP ? 2636瀏覽 ? 0回復(fù)
本地構(gòu)建Llama 3.2-Vision多模態(tài)LLM聊天應(yīng)用實(shí)戰(zhàn)

51CTO內(nèi)容精選 ? 2306瀏覽 ? 0回復(fù)
Dolphin 3.0 發(fā)布（Llama 3.1 + 3.2 + Qwen 2.5）：本地優(yōu)先、可操縱的 AI 模型

Halo咯咯 ? 2188瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 2663瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 1815瀏覽 ? 0回復(fù)
AI大模型本地化方案：Xinference 本地運(yùn)行大模型

風(fēng)云2002_1 ? 2248瀏覽 ? 0回復(fù)
Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程

小虎哦哦 ? 3988瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

本地部署Qwen2.5-Coder大模型，打造你的專屬編程助手 2024-12-04 09:36:03發(fā)布
LangChain生態(tài)全解析， LangGraph、LangFlow、LangSmith 2024-12-04 09:16:02發(fā)布

熱門推薦

擺脫云端限制！Qwen3+MCP+Ollama 本地工具調(diào)用實(shí)戰(zhàn)教程 0回復(fù)

Spring AI 1.0.0 發(fā)布！支持 MCP 很炸裂！! 1回復(fù)

2025年最值得關(guān)注的十大多模態(tài)大語言模型！ 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

從零到一構(gòu)建Agent系統(tǒng)：四大模塊 + 框架生態(tài)詳解 0回復(fù)

下一篇：多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

社區(qū)精華內(nèi)容

目錄

<abbr id="rftfi"><optgroup id="rftfi"></optgroup></abbr>

<center id="rftfi"></center>