配置

Open WebUI 支持本地、浏览器以及远程的语音转文本 (STT) 功能。

alt text

云端 / 远程语音转文本提供商

目前支持以下语音转文本 (STT) 提供商：

服务	是否需要 API Key	相关指南
本地 Whisper (默认)	❌	内置，参见环境变量
OpenAI (Whisper API)	✅	OpenAI STT 指南
Mistral (Voxtral)	✅	Mistral Voxtral 指南
Deepgram	✅	—
Azure	✅	—

Web API 通过浏览器内置的语音识别提供 STT 服务（无需 API Key，可在用户设置中进行配置）。

配置您的 STT 提供商

配置语音转文本提供商的步骤：

导航至管理员设置 (Admin Settings)
选择音频 (Audio)
输入 API Key 并从下拉菜单中选择一个模型

alt text

限制允许的音频 file 后缀名

Open WebUI 在 管理员设置 → 音频 → STT (Admin Settings → Audio → STT) 下面提供了一个 允许的扩展名 (Allowed Extensions) 列表，用于控制上传端点所接受的音频文件扩展名（默认：mp3,wav,m4a,webm,ogg,flac,mp4,mpga,mpeg）。在转录开始前，任何具有其他扩展名的上传都将被拒绝，并返回 400 Invalid audio file extension。

这是在 MIME 类型检查 (AUDIO_STT_SUPPORTED_CONTENT_TYPES) 之外，在服务器端强制执行的。因此，收紧此项配置是以极低成本加强 STT 端点安全性、防范异常文件类型的一种好方法。您可以在启动时设置对应的 AUDIO_STT_ALLOWED_EXTENSIONS 环境变量来初始化此列表，或者在 UI 中将其清空以完全跳过扩展名检查。

用户级设置

除了在管理员面板中配置的实例级设置之外，还有几个用户级别的设置可以提供额外的功能：

STT 设置 (STT Settings)：包含与语音转文本功能相关的设置。
语音转文本引擎 (Speech-to-Text Engine)：决定用于语音识别的引擎（默认或 Web API）。

alt text

使用 STT

语音转文本提供了一种极为高效的使用语音“编写” Prompt 的方式，无论是在桌面端还是移动端设备上，它都能稳定可靠地工作。

若要使用 STT，只需点击麦克风图标：

alt text

实时的音频波形图将表明语音已成功捕获：

alt text

STT 模式操作

录音开始后，您可以进行以下操作：

点击对勾图标以保存录音（如果启用了“完成后自动发送”，它将发送并完成；否则您可以手动发送）。
如果您想取消当前录音（例如，您想重新开始一段新的录音），可以点击 “x” 图标以退出录音界面。

alt text

故障排除

常见问题

"int8 compute type not supported" 错误

如果您遇到类似 Error transcribing chunk: Requested int8 compute type, but the target device or backend do not support efficient int8 computation 的错误，这通常意味着您的 GPU 不支持所请求的 int8 计算操作。

解决方案：

升级到最新版本 — 在最近的更新中，计算类型的持久化配置得到了改进，已解决已知的 CUDA 兼容性问题。
切换到标准 Docker 镜像（而不是 :cuda 镜像）— 较旧的 GPU（Maxwell 架构，大约 2014-2016 年）可能无法受到现代 CUDA 加速库的支持。

使用 WHISPER_COMPUTE_TYPE 环境变量更改计算类型：

environment:
  - WHISPER_COMPUTE_TYPE=float16  # 或 float32

提示

对于像 Whisper 这样较小的模型，CPU 模式通常能提供相近的性能，且不会遇到 GPU 兼容性问题。:cuda 镜像主要用于加速 RAG 向量嵌入，对于大多数用户来说，不会显著影响 STT 速度。

麦克风无法工作

检查浏览器权限 — 确保您的浏览器拥有麦克风访问权限。
使用 HTTPS — 某些浏览器要求必须使用安全连接 (HTTPS) 才能获取麦克风权限。
尝试其他浏览器 — Chrome 浏览器通常对 Web Audio API 的支持最好。

识别准确率低

显式指定语言：使用 WHISPER_LANGUAGE=zh（使用 ISO 639-1 代码，中文为 zh）。
切换多语言支持：如果您需要支持英语以外的其他语言，请使用 WHISPER_MULTILINGUAL=true。禁用时（默认），系统仅使用纯英文版本的模型，以便在英语任务中获得更好的表现。
使用更大的 Whisper 模型 — 可选：tiny、base、small、medium、large。
模型越大识别越精准，但推理速度也会越慢。

有关更多详细的故障排除步骤，请参阅音频故障排除指南。

This content is for informational purposes only and does not constitute a warranty, guarantee, or contractual commitment. Open WebUI is provided "as is." See your license for applicable terms.

云端 / 远程语音转文本提供商​

配置您的 STT 提供商​

限制允许的音频 file 后缀名​

用户级设置​

使用 STT​

STT 模式操作​

故障排除​

常见问题​

"int8 compute type not supported" 错误​

麦克风无法工作​

识别准确率低​

云端 / 远程语音转文本提供商

配置您的 STT 提供商

限制允许的音频 file 后缀名

用户级设置

使用 STT

STT 模式操作

故障排除

常见问题

"int8 compute type not supported" 错误

麦克风无法工作

识别准确率低