使用 OpenAI 进行语音转文本

本指南介绍如何在 Open WebUI 中使用 OpenAI 的 Whisper API 进行语音转文本 (STT)。这提供了一种无需本地 GPU 资源便可实现云端音频转录的方案。

正在寻找 TTS？

要求

拥有 Audio API 访问权限的 OpenAI API Key
已安装并运行的 Open WebUI

快速设置 (UI)

点击您的头像图标（左下角）
选择 管理员面板 (Admin Panel)
点击 设置 (Settings) → 音频 (Audio) 选项卡
配置以下内容：

设置	值
语音转文本引擎 (Speech-to-Text Engine)	`OpenAI`
API Base URL	`https://api.openai.com/v1`
API Key	您的 OpenAI API Key
STT 模型 (STT Model)	`whisper-1`
支持的内容类型 (Supported Content Types)	留空以使用默认值，或设置为 `audio/wav,audio/mpeg,audio/webm`

点击保存

可用模型

模型	描述
`whisper-1`	托管在云端的 OpenAI Whisper large-v2 模型

信息

OpenAI 目前仅提供 whisper-1。如需更多模型选项，请使用本地 Whisper（Open WebUI 内置）或其他提供商（如 Deepgram）。

环境变量设置

如果您更倾向于通过环境变量进行配置：

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - AUDIO_STT_ENGINE=openai
      - AUDIO_STT_OPENAI_API_BASE_URL=https://api.openai.com/v1
      - AUDIO_STT_OPENAI_API_KEY=sk-...
      - AUDIO_STT_MODEL=whisper-1
    # ... 其他配置

所有 STT 环境变量 (OpenAI)

变量	描述	默认值
`AUDIO_STT_ENGINE`	设置为 `openai`	空（使用本地 Whisper）
`AUDIO_STT_OPENAI_API_BASE_URL`	OpenAI API Base URL	`https://api.openai.com/v1`
`AUDIO_STT_OPENAI_API_KEY`	您的 OpenAI API Key	空
`AUDIO_STT_MODEL`	STT 模型	`whisper-1`
`AUDIO_STT_SUPPORTED_CONTENT_TYPES`	允许的音频 MIME 类型	`audio/*,video/webm`

支持的音频格式

默认情况下，Open WebUI 接受 audio/* 和 video/webm 进行转录。如果您需要限制或扩展支持的格式，可以设置 AUDIO_STT_SUPPORTED_CONTENT_TYPES：

environment:
  - AUDIO_STT_SUPPORTED_CONTENT_TYPES=audio/wav,audio/mpeg,audio/webm

OpenAI 的 Whisper API 支持的格式有：mp3、mp4、mpeg、mpga、m4a、wav、webm。

使用 STT

点击聊天输入框中的麦克风图标
说话输入您的消息
再次点击麦克风，或等待静音检测自动停止
您的语音将被转录并显示在输入框中

OpenAI 与本地 Whisper 对比

特性	OpenAI Whisper API	本地 Whisper
延迟	取决于网络状况	短音频转录速度更快
成本	按分钟计费	免费（消耗您的本地硬件）
隐私	音频发送到 OpenAI	音频保留在本地
需要 GPU	不需要	推荐使用以提升速度
模型选项	仅 `whisper-1`	tiny, base, small, medium, large

选择 OpenAI 的场景：

您没有 GPU 硬件
您希望获得稳定的性能表现
您不担心隐私问题

选择 本地 Whisper 的场景：

您希望进行免费的音频转录
您的音频数据必须保持私密
您拥有可以用于加速的 GPU

故障排除

麦克风无法工作

确保您正在使用 HTTPS 或 localhost
检查浏览器的麦克风权限
参阅麦克风访问问题

转录错误

检查您的 OpenAI API Key 是否有效
验证 API Base URL 是否正确
查看容器日志以获取错误消息

语言问题

OpenAI 的 Whisper API 会自动检测语言。如果您需要强制使用特定的语言，建议考虑使用本地 Whisper 并配置 WHISPER_LANGUAGE 环境变量。

有关更多故障排除信息，请参阅音频故障排除指南。

成本考量

OpenAI 收取每分钟音频的 STT 费用。请查看 OpenAI 定价了解当前价格。

提示

如需免费 STT，请使用 本地 Whisper（默认）或浏览器的 Web API 进行基础转录。

This content is for informational purposes only and does not constitute a warranty, guarantee, or contractual commitment. Open WebUI is provided "as is." See your license for applicable terms.

要求​

快速设置 (UI)​

可用模型​

环境变量设置​

所有 STT 环境变量 (OpenAI)​

支持的音频格式​

使用 STT​

OpenAI 与本地 Whisper 对比​

故障排除​

麦克风无法工作​

转录错误​

语言问题​

成本考量​

要求