如何使用OpenAI gpt-image-1 API生成和編輯圖像

作者：李睿 2025-05-12 08:25:53

本文將探討OpenAI公司的gpt-image-1模型的關(guān)鍵特性，以及如何使用它進行圖像生成和編輯。

譯者 | 李睿

審校 | 重樓

本文介紹了OpenAI公司最新推出的多模態(tài)語言模型gpt-image-1，該模型能夠生成高質(zhì)量圖像并融入現(xiàn)實世界知識。還闡述了gpt-image-1的關(guān)鍵特性、可用性、定價、訪問方式及其在實際應(yīng)用中的圖像生成和編輯方法。最后通過代碼示例，展示了如何使用gpt-image-1 API根據(jù)文本提示生成和編輯圖像。

OpenAI公司的ChatGPT在引入圖像生成模型之后，迅速在互聯(lián)網(wǎng)上風(fēng)靡。人們被其能夠生成“吉卜力風(fēng)格”自畫像的能力所吸引，還能將個人回憶轉(zhuǎn)化為動畫作品。OpenAI公司進一步推出了新的原生多模態(tài)模型“gpt-image-1”，它可以在ChatGPT中直接生成圖像，并且能夠通過API使用。本文將探討OpenAI公司的gpt-image-1模型的關(guān)鍵特性，以及如何使用它進行圖像生成和編輯。

gpt-image-1是什么？

gpt-image-1是OpenAI公司最新、最先進的多模態(tài)語言模型。它因其生成高質(zhì)量圖像的能力而脫穎而出，同時將現(xiàn)實世界知識融入視覺內(nèi)容中。盡管gpt-image-1以其強大的性能而備受推薦，但這個Image API還支持其他專用模型，例如DALL?E 2和DALL?E 3。

gpt-image-1提供了三個關(guān)鍵端點，每個端點都是為特定的任務(wù)設(shè)計的：

生成：使用文本提示從零開始創(chuàng)建圖像。
編輯：使用新提示對現(xiàn)有圖像進行部分或全部修改。
變體：生成現(xiàn)有映像的變體（僅適用于DALL?E2）。

gpt-image-1的主要特性

gpt-image-1提供了幾個關(guān)鍵特性：

高保真圖像：生成詳細和準確的視覺效果。
多樣化視覺風(fēng)格：支持從照片現(xiàn)實到抽象的一系列美學(xué)。
精準的圖像編輯：能夠?qū)ι傻膱D像進行有針對性的修改。
豐富知識儲備：能夠準確理解復(fù)雜提示的上下文。
一致的文本渲染：可靠地渲染圖像中的文本。

可用性

OpenAI API使用戶能夠使用GPT Image或DALL?E模型從文本提示生成和編輯圖像。目前，圖像生成只能通過image API進行訪問，不過對響應(yīng)API的支持正在積極開發(fā)中。

要了解更多關(guān)于gpt-image 1的信息，請單擊此處。

gpt-image-1的定價

在深入研究如何使用和部署模型之前，了解其定價以確保其有效且經(jīng)濟地使用該模型非常重要。

gpt-image-1模型是按令牌定價的，文本和圖像令牌的定價不同：

文本輸入令牌（提示）：每100萬令牌5美元
圖像輸入令牌（上傳的圖像）：每100萬令牌10美元
圖像輸出令牌（生成的圖像）：每100萬令牌40美元

實際上，這大致相當(dāng)于：

低質(zhì)量方形圖像的定價約0.02美元
中等質(zhì)量的方形圖像的定價約0.07美元
高質(zhì)量方形圖像的定價約0.19美元

有關(guān)圖像質(zhì)量和分辨率的更詳細定價，請參閱官方定價頁面。

注意：該模型通過首先創(chuàng)建專門的圖像令牌來生成圖像。因此，延遲和總成本都取決于所使用令牌的數(shù)量。更大的圖像尺寸和更高的質(zhì)量設(shè)置需要更多的令牌，從而增加了時間和成本。

如何訪問gpt-image-1？

生成gpt-image-1的API Key：

（1）登錄OpenAI平臺

（2）進入Project>API Key頁面

（3）驗證帳戶

為此，首先請訪問：https://platform.openai.com/settings/organization/general。然后，點擊“驗證組織”開始驗證過程。它與任何KYC驗證類似，根據(jù)不同的國家，將被要求上傳帶照片的身份證，然后用自拍進行驗證。

可以按照Open AI提供的文檔來更好地理解驗證過程。

gpt-image-1：實際應(yīng)用

以下了解如何使用gpt-image-1 API生成圖像。

將使用圖像生成端點根據(jù)文本提示創(chuàng)建圖像。在默認情況下，API返回單個圖像，可以設(shè)置n參數(shù)以在一個請求中一次生成多個圖像。

在運行主要代碼之前，需要首先運行用于安裝和設(shè)置環(huán)境的代碼。

!pip install openai
import os
os.environ['OPENAI_API_KEY'] = "<your-openai-api-key>"

現(xiàn)在，嘗試使用這個新模型生成圖像。

輸入代碼：

from openai import OpenAI
import base64
client = OpenAI()

prompt = """
A serene, peaceful park scene where humans and friendly robots are enjoying the
day together - some are walking, others are playing games or sitting on benches
under trees. The atmosphere is warm and harmonious, with soft sunlight filtering
through the leaves.
"""

result = client.images.generate(
 model="gpt-image-1",
 prompt=prompt
)

image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)

# Save the image to a file
with open("utter_bliss.png", "wb") as f:
 f.write(image_bytes)

輸出：

使用gpt-image-1編輯圖像

gpt-image-1 提供多種圖像編輯功能，通過其圖像編輯端點可以實現(xiàn)：

編輯現(xiàn)有圖像。
使用其他圖像作為參考生成新圖像。
通過上傳圖像和遮罩（mask）來編輯圖像的某些部分，指出哪些區(qū)域應(yīng)該被替換（這個過程被稱為圖像修復(fù)）。

使用遮罩編輯圖像示例

以下代碼演示如何通過遮罩將埃隆·馬斯克添加到指定圖像中。

遮罩的透明區(qū)域會根據(jù)提示替換內(nèi)容，而彩色區(qū)域保持不變：

輸入代碼：

from openai import OpenAI
client = OpenAI()

result = client.images.edit(
 model="gpt-image-1",
 image=open("/content/analytics_vidhya_1024.png", "rb"),
 mask=open("/content/mask_alpha_1024.png", "rb"),
 prompt="Elon Musk standing in front of Company Logo"
)

image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)

# Save the image to a file
with open("Elon_AV.png", "wb") as f:
 f.write(image_bytes)

輸出：

使用gpt-image-1編輯圖像時需要注意以下一些事項：

需要編輯的圖像和相應(yīng)的遮罩必須具有相同的格式和尺寸，并且大小應(yīng)小于25MB。
給出的提示可以用來描述整個新圖像，而不僅僅是正在編輯的部分。
如果提供多個輸入圖像，遮罩將僅應(yīng)用于第一張圖像。
遮罩圖像必須包含alpha通道。如果使用圖像編輯工具來創(chuàng)建遮罩，需要確保在啟用alpha通道的情況下保存遮罩。
如果有一張黑白圖像，可以使用應(yīng)用程序來添加一個alpha通道，并將其轉(zhuǎn)換為一個有效的遮罩，例如以下代碼：

from PIL import Image
from io import BytesIO

# 1. Load your black & white mask as a grayscale image
mask = Image.open("/content/analytics_vidhya_masked.jpeg").convert("L")

# 2. Convert it to RGBA so it has space for an alpha channel
mask_rgba = mask.convert("RGBA")

# 3. Then use the mask itself to fill that alpha channel
mask_rgba.putalpha(mask)

# 4. Convert the mask into bytes
buf = BytesIO()
mask_rgba.save(buf, format="PNG")
mask_bytes = buf.getvalue()

# 5. Save the resulting file
img_path_mask_alpha = "mask_alpha.png"
with open(img_path_mask_alpha, "wb") as f:
 f.write(mask_bytes)

使用模型的最佳實踐

以下是使用gpt-image-1生成或編輯圖像時應(yīng)遵循的一些技巧和最佳實踐。

（1）可以通過設(shè)置尺寸、質(zhì)量、文件格式、壓縮級別以及背景是否透明等選項來自定義圖像的外觀。這些設(shè)置可幫助控制最終輸出以滿足特定需求。

（2）為了更快獲得結(jié)果，使用方形圖像（1024×1024）和標準質(zhì)量。也可以選擇縱向（1536×1024）或橫向（1024×1536）格式。質(zhì)量可以設(shè)置為低、中或高，大小和質(zhì)量都默認為自動。

（3）Image API返回base64編碼的圖像數(shù)據(jù)。圖像保存的默認格式是png，但也可以將圖像格式設(shè)置為jpeg或webp。

（4）如果使用jpeg或webp格式，那么還可以指定output_compression參數(shù)來控制壓縮級別（0-100%）。例如，output_compressinotallow=50將把圖像壓縮50%。

gpt-image-1的應(yīng)用

從創(chuàng)意設(shè)計和電子商務(wù)到教育、企業(yè)軟件和游戲，gpt-image-1具有廣泛的應(yīng)用范圍。

游戲：內(nèi)容創(chuàng)造、角色遮罩、動態(tài)背景、角色生成、概念設(shè)計
創(chuàng)意工具：藝術(shù)品生成、風(fēng)格轉(zhuǎn)換、設(shè)計原型、視覺敘事
教育：視覺教具、歷史再現(xiàn)、互動學(xué)習(xí)內(nèi)容、概念可視化
企業(yè)軟件：幻燈片視覺效果、報告插圖、數(shù)據(jù)到圖像生成、品牌資產(chǎn)
廣告和市場營銷：活動視覺效果、社交媒體圖形、本地化內(nèi)容創(chuàng)作
醫(yī)療保?。?/strong>醫(yī)學(xué)插圖、患者掃描圖像、模型訓(xùn)練的合成圖像數(shù)據(jù)
建筑和房地產(chǎn)：室內(nèi)模型、室外效果圖、布局預(yù)覽、裝修創(chuàng)意
娛樂與媒體：場景概念、宣傳材料、數(shù)字替身

gpt-image-1的局限性

gpt-40圖像模型是一個強大而通用的圖像生成工具，但仍有一些限制：

延遲：處理更復(fù)雜的提示可能需要長達2分鐘的處理時間。
文本渲染：雖然該模型明顯優(yōu)于DALL·E模型，但在精確的文本對齊和清晰度方面仍可能面臨挑戰(zhàn)。
一致性：雖然它可以生成視覺上一致的圖像，但gpt-image-1有時可能難以在多個圖像中保持重復(fù)出現(xiàn)的角色或品牌元素的一致性。
組合控制：即使有改進的指令遵循能力，gpt-image-1可能并不總是準確地將元素放置在結(jié)構(gòu)化或布局敏感的設(shè)計中。

模型比較

下表是OpenAI的gpt-image-1與流行的DALL·E模型的比較：

模型	端點	特性
DALL·E 2	生成、編輯、變體	成本更低，支持并發(fā)請求，包括修復(fù)功能
DALL·E 3	只有生成	比DALL?E2分辨率更高，圖像質(zhì)量更好
gpt-image-1	生成、編輯（響應(yīng)API即將發(fā)布）	出色的指導(dǎo)遵循、詳細的編輯、現(xiàn)實世界的意識

結(jié)論

OpenAI的gpt-image-1展現(xiàn)了強大的圖像生成能力，支持通過簡單文本提示實現(xiàn)圖像生成、編輯和變體。gpt-image-1內(nèi)置圖像尺寸、質(zhì)量、格式等自定義選項，并配備圖像修復(fù)功能，使開發(fā)者能對輸出結(jié)果進行全面且透明的控制。雖然有些人擔(dān)心此類技術(shù)可能取代人類創(chuàng)造力，但值得注意的是，此類工具的目標在于增強人類的創(chuàng)造力，并成為藝術(shù)家的實用工具。人們必須找到恰當(dāng)?shù)钠胶恻c——既讓這些工具能推展創(chuàng)新，又不削弱人類原創(chuàng)作品的核心價值。
原文標題：How to Generate and Edit Images Using OpenAI gpt-image-1 API，作者：Shaik Hamzah

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

OpenAI 圖像生成多模態(tài)語言模型

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

如何使用LangChain和OpenAI API分析文檔？
借助少許代碼和一些實用的庫，您就能構(gòu)建一個功能強大的文檔分析工具。

2023-11-23 08:00:00

OpenAI LangChain

剛剛，OpenAI最強圖像生成API上線，一張圖1毛5！
GPT4o之后，OpenAI原生多模態(tài)圖像生成模型API正式推出了，一張圖低至0.02美元。新模型能夠結(jié)合世界知識，生成更加符合上下文圖像，質(zhì)量更高，還支持多種功能自定義。

2025-04-24 10:31:54

Go 語言如何調(diào)用OpenAI API，包括 ChatGPT、GPT-3、GPT-4、DALL·E 3 和 Whisper
如果你不想依賴第三方庫，或不關(guān)心高精度的令牌計數(shù)，可以手動基于字符或單詞數(shù)量進行簡單的估算。OpenAI的令牌化方式大致上是按照單詞、標點符號、空格等計算的。

2024-10-18 11:12:44

GPT-4o圖像生成的秘密，OpenAI 沒說，網(wǎng)友已經(jīng)拼出真相？
不會PS也能化身繪圖專家，隨便打開一個社交媒體，一眼望去都是GPT4o生成的案例。

2025-03-31 08:50:00

AI 生成模型

使用Python探究OpenAI API
我們在本文中將探討如何結(jié)合使用OpenAIAPI和Python以及可以執(zhí)行的各種任務(wù)。但愿您能從這篇文章中學(xué)到很多。

2024-05-21 09:01:00

如何使用MyScale將知識庫引入OpenAI的GPT
本文描述了如何使用MyScale將開發(fā)人員的知識庫與OpenAI的GPT結(jié)合起來。MyScale簡化了將場景引入GPT的方式。

2024-02-19 17:44:47

OpenAI MyScale

針對小企業(yè)，OpenAI推ChatGPT團隊訂閱服務(wù)，每人月費30美元
所有訂閱ChatGPT團隊的用戶都可以訪問OpenAI的最新模型GPT4（生成文本）、GPT4withVision（能理解圖像）以及DALLE3（創(chuàng)建圖像）等強大工具。此外，還有一系列功能強大的分析、編輯和提取上傳文件信息的工具供用戶使用。

2024-01-11 08:22:59

ChatGPT OpenAI GPT-4

OpenAI 向所有付費 API 用戶開放 GPT-4
GPT4是繼GPT3之后的又一項重大突破，擁有超過1000億個參數(shù)，其數(shù)量是GPT3的10倍。GPT4可以根據(jù)給定的文本或語音輸入，生成各種類型和風(fēng)格的自然語言輸出，如文章、對話、摘要、詩歌、歌詞等。

2023-07-07 09:32:57

GPT-4 OpenAI

OpenAI 的新 GPT-4o 圖像生成技術(shù)絕對會改變游戲規(guī)則
傳統(tǒng)的Photoshop頂多就是簡單地將人物圖層疊加到背景圖上，對光影和角度的細節(jié)通常還要手動調(diào)整。但GPT4o呢？

2025-04-07 00:00:00

OpenAI GPT-4o 圖像

OpenAI正式推出GPT商店
GPT商店旨在模仿蘋果應(yīng)用商店，為用戶提供了一個平臺，讓他們發(fā)布個性化聊天機器人（或GPT），供其他人下載和使用。據(jù)OpenAI稱，目前社區(qū)成員已經(jīng)創(chuàng)建了超過300萬個GPT，并在GPT商店中提供。

2024-01-11 07:28:42

官方論文代碼放出，OpenAI是如何實現(xiàn)圖像版GPT-3的？
今年年初，OpenAI圖像版GPT3、120億參數(shù)的DALLE刷屏社區(qū)，這個大型模型可以將以自然語言形式表達的大量概念轉(zhuǎn)換為合適的圖像，效果十分驚艷。

2021-02-25 15:43:43

AI 數(shù)據(jù)人工智能

OpenAI 將 ChatGPT 新圖像生成技術(shù)引入 API，每張圖約 2 美分起
在OpenAI的API中，圖像生成能力由名為“gptimage1”的AI模型驅(qū)動。這是一個原生的多模態(tài)模型，能夠生成不同風(fēng)格的圖像。開發(fā)者可以利用gptimage1同時生成多張圖像，并控制生成質(zhì)量，從而調(diào)整生成速度。

2025-04-24 08:23:59

OpenAI封禁字節(jié)跳動賬戶！內(nèi)部爆料濫用GPT生成內(nèi)容
當(dāng)前OpenAI正在致力于識別API的輸出，以防止?jié)撛诘恼`用、濫用，但潘多拉之匣已然開啟。目前尚不清楚字節(jié)跳動這樣的行為是否會進一步加劇中美之間高度緊張的關(guān)系，畢竟兩國都將人工智能視為國家安全問題。

2023-12-18 07:15:37

剛剛，OpenAI圖像生成模型API發(fā)布，Token計價，一張圖花掉1.4元
OpenAI又宣布了一個好消息：他們正式在API中推出驅(qū)動ChatGPT多模態(tài)體驗的原生模型——gptimage1，讓開發(fā)者和企業(yè)能夠輕松將高質(zhì)量、專業(yè)級的圖像生成功能直接集成到自己的工具和平臺中。

2025-04-24 09:38:56

企業(yè)如何使用ChatGPT和GPT-3
對于企業(yè)來說，ChatGPT這樣的聊天機器人有可能將日常任務(wù)或增強復(fù)雜的通信實現(xiàn)自動化，例如創(chuàng)建電子郵件銷售活動、修改計算機代碼或改進客戶支持。

2023-03-01 16:15:16

OpenAI CEO ：OpenAI還沒有開始訓(xùn)練GPT-5
奧特曼說：“在開始訓(xùn)練GPT5之前，我們還有很多工作要做。我們正在研究我們認為需要的新想法，但我們肯定還沒有接近開始訓(xùn)練的起點?！?/a>

2023-06-08 07:58:29

使用 Spring Boot 創(chuàng)建自己的 ChatGPT 應(yīng)用程序
在這篇短文中，我們了解了OpenAI的GPT3.5Turbo模型。如何生成供個人使用的密鑰。然后，我們還研究了將常用的SpringBoot應(yīng)用程序與OpenAI聊天完成API集成、對端點進行實際調(diào)用，并驗證了響應(yīng)。

2024-01-18 07:53:37

剛剛，GPT-4o原生圖像生成上線，P圖、生圖也就一嘴的事
毫無預(yù)告地，OpenAI推出GPT4o原生圖像生成。效果讓人驚嘆不已。更妙的是，即使免費用戶也可使用。

2025-03-26 09:13:02

OpenAI手把手官方教學(xué)：如何用GPT-4創(chuàng)建會議紀要生成AI
大型語言模型GPT4發(fā)布已經(jīng)有些時日了，基于其開發(fā)的應(yīng)用也層出不窮，不斷涌現(xiàn)。這些應(yīng)用的強大能力已經(jīng)為許多用戶的大量任務(wù)場景提供了助力。這里我們要分享的是OpenAI的一份官方文檔，其中詳細介紹了使用其語音識別模型Whisper和大型語言模型GPT4創(chuàng)建會議紀要生成器的全流程。

2023-08-31 13:25:09

AI 模型

OpenAI 已全面開放 GPT-3.5 Turbo、DALL-E 及 Whisper API
OpenAI宣稱，當(dāng)下開發(fā)人員還能調(diào)用CompletionsAPI，但今天起OpenAI會在開發(fā)者文件中將“舊版本Completions”標明為“舊API”。OpenAI未來會將資源集中用于ChatCompletionsAPI，不再公開使用CompletionsAPI的模型。

2023-07-10 15:22:29

OpenAI GPT-3.5

相似話題

機器學(xué)習(xí)
2031內(nèi)容

深度學(xué)習(xí)
1695內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

突發(fā)，美商務(wù)部叫?！窤I擴散規(guī)則」藏殺機！英偉達市值再破3萬億 C++之父：重點沒在下一個版本！而是如何寫好現(xiàn)代版的C++支付巨頭被打臉！曾放話AI能頂700名人類客服，年省4千萬刀；一年后又把員工招回來了！CEO公開認錯：我們部署AI的方式太極端了國產(chǎn)Cursor靠譜！騰訊發(fā)布CodeBuddy深度評測驚現(xiàn)狠人手搓Agent心經(jīng)！LLM的Tool Use邏輯曝光！簡單到爆炸：僅9行代碼！網(wǎng)友直呼：難以相信！難點是LLM循環(huán)幾次！原因找到了！馬斯克的Grok突然“失心瘋”！不停發(fā)推“南非白種人滅絕”、“殺死布爾人”，官方回應(yīng)來了：有員工擅自修改了系統(tǒng)提示詞知識圖譜+向量數(shù)據(jù)庫：打造更智能的RAG系統(tǒng)我花了整整兩周，深度體驗了五款最火的 AI 工具，發(fā)現(xiàn)它們都有個致命的問題......

相關(guān)專題更多

馭浪者無疆：破界而生，重構(gòu)制造新坐標

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

2025-04-30 15:22:55

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡