如何在国内永久激活GPT-4o？超详细的 GPT 4o API 使用教程（含视觉、文本、图像）

点击关注，免费领取最新的AI资料和 GPT-4o账号

大家好，我是YUAN哥，今天给大家讲讲如何在国内使用 GPT-4o API。无论你是对生成文本、分析音频还是处理图像感兴趣，这篇教程都会带你一步步了解如何操作。我们从头到尾把整个过程讲清楚，简单易懂，适合技术小白。

OpenAI 发布了升级版的 ChatGPT-4o，这个版本不仅速度和性能得到了显著提升，还增加了对文本、视觉和音频处理的能力。如果你想使用 GPT-4o API 来生成和处理这些内容，那么这篇文章非常适合你。

什么是 GPT-4o？

GPT-4o 是 OpenAI 最新的多模态人工智能模型，能够理解和处理文本、音频和视觉内容。这意味着它不仅能和你聊天，还能分析图片、音频，甚至生成音乐和故事。以下是一些具体功能：

• 文本：继续进行对话、回答问题、生成诗歌或代码。
• 音频：分析音乐、描述情感、生成歌词。
• 视觉：分析图片、描述场景、生成故事。

这种多模态能力让 GPT-4o 更接近人类的理解方式，能够处理和解释更多元的信息。

GPT-4o API 可以做什么？

GPT-4o API 提供了一系列强大功能，适用于各种任务：

• 聊天完成 ：与 GPT-4o 进行自然对话，提出问题或创意写作提示。
• 图像和视频理解 ：分析视觉内容，获取描述、摘要或见解。
• 音频处理 ：转录音频、情感分析、生成创意内容。
• 文本生成 ：生成诗歌、剧本或详细答复。
• 代码完成 ：帮助完成代码，提高编程效率。
• JSON 模式和函数调用 ：更精准地构建请求和响应，完成复杂任务。

如何使用 GPT-4o API 进行视觉和文本？

下面我会详细讲解如何设置和使用 GPT-4o API，进行文本和视觉处理。

访问和身份验证

1. OpenAI 帐户 ：注册一个 OpenAI 帐户，可能需要选择免费或付费级别。
2. API 密钥 ：获取你的 API 密钥，用于验证你的请求。

步骤1：设置开发环境

首先，确保你已经安装了 Python。如果没有，去 Python 官网下载并安装最新版本。

接着，创建一个新的目录用于你的 GPT-4o API 项目，并在终端或命令提示符中导航到该目录。我们建议使用虚拟环境来组织项目依赖：

Windows:

$ python -m venv my_gpt4_project  
$ my_gpt4_project\Scripts\activate

macOS/Linux:

$ python -m venv my_gpt4_project  
$ source my_gpt4_project/bin/activate

然后，安装所需的库和依赖项，比如 requests 库：

$ pip install requests

步骤2：了解 API 端点和方法

GPT-4o API 的主要端点是：

https://api.openai.com/v1/chat/completions

这个端点用于发送聊天消息到 GPT-4o 模型并接收生成的响应。

步骤3：使用 Python 进行 API 调用

以下是一个使用 Python 进行 GPT-4o API 调用的示例代码。

首先，导入必要的库：

import requests  
import json

定义你的 API 密钥和 API 端点：

API_KEY = "你的API密钥"  
API_ENDPOINT = "https://api.openai.com/v1/chat/completions"

创建一个函数来生成聊天：

def generate_chat_completion(messages, model="GPT-4o", temperature=1, max_tokens=None):  
    headers = {  
        "Content-Type": "application/json",  
        "Authorization": f"Bearer {API_KEY}",  
    }  
    data = {  
        "model": model,  
        "messages": messages,  
        "temperature": temperature,  
    }  
    if max_tokens is not None:  
        data["max_tokens"] = max_tokens  
    response = requests.post(API_ENDPOINT, headers=headers, data=json.dumps(data))  
    if response.status_code == 200:  
        return response.json()["choices"][0]["message"]["content"]  
    else:  
        raise Exception(f"Error {response.status_code}: {response.text}")

构建一个消息列表并调用 generate_chat_completion 函数：

messages = [  
    {"role": "system", "content": "You are a helpful assistant."},  
    {"role": "user", "content": "Translate the following English text to French: 'Hello, how are you?'"}  
]  
response_text = generate_chat_completion(messages)  
print(response_text)

用于聊天

代码：

response = openai.chat.completions.create(  
  model="gpt-4o",  
  messages=[  
    {"role": "system", "content": "You are a helpful assistant."},  
    {"role": "user", "content": "Who won the world series in 2020?"},  
    {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},  
    {"role": "user", "content": "Where was it played?"}  
  ]  
)

输出：

print(response.choices[0].message.content)

使用 GPT-4o API 进行图像处理

下面是一个图像处理的示例：

response = openai.chat.completions.create(  
  model="gpt-4o",  
  messages=[  
    {  
      "role": "user",  
      "content": [  
        {"type": "text", "text": "What’s in this image?"},  
        {  
          "type": "image_url",  
          "image_url": {  
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",  
          },  
        },  
      ],  
    }  
  ],  
  max_tokens=300,

输出：

print(response.choices[0])

使用 GPT-4o API 进行视频处理

导入必要的库：

from IPython.display import display, Image, Audio  
  
import cv2  # We're using OpenCV to read video, to install !pip install opencv-python  
import base64  
import time  
from openai import OpenAI  
import os  
import requests  
  
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "<your OpenAI API key if not set as env var>"))

使用 GPT 的视觉功能获取视频的描述

video = cv2.VideoCapture("<Your Viedeo Address>")  
  
base64Frames = []  
while video.isOpened():  
  success, frame = video.read()  
  if not success:  
      break  
  _, buffer = cv2.imencode(".jpg", frame)  
  base64Frames.append(base64.b64encode(buffer).decode("utf-8"))  
  
video.release()  
print(len(base64Frames), "frames read.")  
display_handle = display(None, display_id=True)  
for img in base64Frames:  
  display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))  
  time.sleep(0.025)  
提供提示：  
PROMPT_MESSAGES = [  
  {  
      "role": "user",  
      "content": [  
          "These are frames from a video that I want to upload. Generate a compelling description that I can upload along with the video.",  
          *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::50]),  
      ],  
  },  
]  
params = {  
  "model": "gpt-4o",  
  "messages": PROMPT_MESSAGES,  
  "max_tokens": 200,  
}

输出：

result = client.chat.completions.create(**params)  
print(result.choices[0].message.content)

使用 GPT-4o API 进行音频处理

下面是一个音频处理的示例：

from openai import OpenAI  
  
client = OpenAI(api_key="你的API密钥")  
audio_file= open("/path/to/file/audio.mp3", "rb")  
transcription = client.audio.transcriptions.create(  
  model="whisper-1",   
  file=audio_file  
)  
print(transcription.text)

输出：

print(transcription.text)

使用 GPT-4o API 进行图像生成

下面是一个图像生成的示例：

from openai import OpenAI  
  
client = OpenAI(api_key="你的API密钥")  
response = client.images.generate(  
  model="dall-e-3",  
  prompt="a man with big moustache and wearing long hat",  
  size="1024x1024",  
  quality="standard",  
  n=1,  
)  
image_url = response.data[0].url  
print(image_url)

输出：

使用 GPT-4o API 进行音频生成

下面是一个音频生成的示例：

from pathlib import Path  
from openai import OpenAI  
  
client = OpenAI(api_key="你的API密钥")  
speech_file_path = Path(__file__).parent / "speech.mp3"  
response = client.audio.speech.create(  
  model="tts-1",  
  voice="alloy",  
  input="Data science is an interdisciplinary academic field that uses statistics, scientific computing, scientific methods, processes, algorithms and systems to extract or extrapolate knowledge and insights from potentially noisy, structured, or unstructured data."  
)  
response.stream_to_file(speech_file_path)  
print("Audio generated and saved to", speech_file_path)

GPT-4o API 的优点和应用

GPT-4o API 有许多优势：

• 高效：自动化任务、快速数据分析、创意内容生成。
• 个性化 ：适应性强的聊天机器人、个性化教育工具。
• 打破沟通障碍 ：实时翻译、图像描述。
• 推动创新 ：研究新领域、探索 AI 未来。

结论

总之，GPT-4o 是人工智能领域的重大突破，具备多模式能力，能够理解文本、音频和视觉内容。其 API 为开发人员和用户提供了强大的工具，推动创新，改变我们与技术互动的方式。希望这个教程能帮助大家更好地使用 GPT-4o API，开启 AI 的新篇章！

如何在国内永久激活GPT-4o？超详细的 GPT 4o API 使用教程 （含视觉、文本、图像）