跳到主要内容

使用 OpenAI 进行语音转文本

本指南介绍如何在 Open WebUI 中使用 OpenAI 的 Whisper API 进行语音转文本 (STT)。这提供了一种无需本地 GPU 资源便可实现云端音频转录的方案。

正在寻找 TTS?

请参阅配套指南:使用 OpenAI 进行文本转语音

要求

  • 拥有 Audio API 访问权限的 OpenAI API Key
  • 已安装并运行的 Open WebUI

快速设置 (UI)

  1. 点击您的头像图标(左下角)
  2. 选择 管理员面板 (Admin Panel)
  3. 点击 设置 (Settings)音频 (Audio) 选项卡
  4. 配置以下内容:
设置
语音转文本引擎 (Speech-to-Text Engine)OpenAI
API Base URLhttps://api.openai.com/v1
API Key您的 OpenAI API Key
STT 模型 (STT Model)whisper-1
支持的内容类型 (Supported Content Types)留空以使用默认值,或设置为 audio/wav,audio/mpeg,audio/webm
  1. 点击保存

可用模型

模型描述
whisper-1托管在云端的 OpenAI Whisper large-v2 模型
信息

OpenAI 目前仅提供 whisper-1。如需更多模型选项,请使用本地 Whisper(Open WebUI 内置)或其他提供商(如 Deepgram)。

环境变量设置

如果您更倾向于通过环境变量进行配置:

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - AUDIO_STT_ENGINE=openai
      - AUDIO_STT_OPENAI_API_BASE_URL=https://api.openai.com/v1
      - AUDIO_STT_OPENAI_API_KEY=sk-...
      - AUDIO_STT_MODEL=whisper-1
    # ... 其他配置

所有 STT 环境变量 (OpenAI)

变量描述默认值
AUDIO_STT_ENGINE设置为 openai空(使用本地 Whisper)
AUDIO_STT_OPENAI_API_BASE_URLOpenAI API Base URLhttps://api.openai.com/v1
AUDIO_STT_OPENAI_API_KEY您的 OpenAI API Key
AUDIO_STT_MODELSTT 模型whisper-1
AUDIO_STT_SUPPORTED_CONTENT_TYPES允许的音频 MIME 类型audio/*,video/webm

支持的音频格式

默认情况下,Open WebUI 接受 audio/*video/webm 进行转录。如果您需要限制或扩展支持的格式,可以设置 AUDIO_STT_SUPPORTED_CONTENT_TYPES

environment:
  - AUDIO_STT_SUPPORTED_CONTENT_TYPES=audio/wav,audio/mpeg,audio/webm

OpenAI 的 Whisper API 支持的格式有:mp3mp4mpegmpgam4awavwebm

使用 STT

  1. 点击聊天输入框中的麦克风图标
  2. 说话输入您的消息
  3. 再次点击麦克风,或等待静音检测自动停止
  4. 您的语音将被转录并显示在输入框中

OpenAI 与本地 Whisper 对比

特性OpenAI Whisper API本地 Whisper
延迟取决于网络状况短音频转录速度更快
成本按分钟计费免费(消耗您的本地硬件)
隐私音频发送到 OpenAI音频保留在本地
需要 GPU不需要推荐使用以提升速度
模型选项whisper-1tiny, base, small, medium, large

选择 OpenAI 的场景:

  • 您没有 GPU 硬件
  • 您希望获得稳定的性能表现
  • 您不担心隐私问题

选择 本地 Whisper 的场景:

  • 您希望进行免费的音频转录
  • 您的音频数据必须保持私密
  • 您拥有可以用于加速的 GPU

故障排除

麦克风无法工作

  1. 确保您正在使用 HTTPS 或 localhost
  2. 检查浏览器的麦克风权限
  3. 参阅 麦克风访问问题

转录错误

  1. 检查您的 OpenAI API Key 是否有效
  2. 验证 API Base URL 是否正确
  3. 查看容器日志以获取错误消息

语言问题

OpenAI 的 Whisper API 会自动检测语言。如果您需要强制使用特定的语言,建议考虑使用本地 Whisper 并配置 WHISPER_LANGUAGE 环境变量。

有关更多故障排除信息,请参阅 音频故障排除指南

成本考量

OpenAI 收取每分钟音频的 STT 费用。请查看 OpenAI 定价 了解当前价格。

提示

如需免费 STT,请使用 本地 Whisper(默认)或浏览器的 Web API 进行基础转录。

This content is for informational purposes only and does not constitute a warranty, guarantee, or contractual commitment. Open WebUI is provided "as is." See your license for applicable terms.