跳到主要内容

配置

Open WebUI 支持本地、浏览器以及远程的语音转文本 (STT) 功能。

alt text

alt text

云端 / 远程语音转文本提供商

目前支持以下语音转文本 (STT) 提供商:

服务是否需要 API Key相关指南
本地 Whisper (默认)内置,参见 环境变量
OpenAI (Whisper API)OpenAI STT 指南
Mistral (Voxtral)Mistral Voxtral 指南
Deepgram
Azure

Web API 通过浏览器内置的语音识别提供 STT 服务(无需 API Key,可在用户设置中进行配置)。

配置您的 STT 提供商

配置语音转文本提供商的步骤:

  • 导航至管理员设置 (Admin Settings)
  • 选择音频 (Audio)
  • 输入 API Key 并从下拉菜单中选择一个模型

alt text

限制允许的音频 file 后缀名

Open WebUI 在 管理员设置 → 音频 → STT (Admin Settings → Audio → STT) 下面提供了一个 允许的扩展名 (Allowed Extensions) 列表,用于控制上传端点所接受的音频文件扩展名(默认:mp3,wav,m4a,webm,ogg,flac,mp4,mpga,mpeg)。在转录开始前,任何具有其他扩展名的上传都将被拒绝,并返回 400 Invalid audio file extension

这是在 MIME 类型检查 (AUDIO_STT_SUPPORTED_CONTENT_TYPES) 之外,在服务器端强制执行的。因此,收紧此项配置是以极低成本加强 STT 端点安全性、防范异常文件类型的一种好方法。您可以在启动时设置对应的 AUDIO_STT_ALLOWED_EXTENSIONS 环境变量来初始化此列表,或者在 UI 中将其清空以完全跳过扩展名检查。

用户级设置

除了在管理员面板中配置的实例级设置之外,还有几个用户级别的设置可以提供额外的功能:

  • STT 设置 (STT Settings):包含与语音转文本功能相关的设置。
  • 语音转文本引擎 (Speech-to-Text Engine):决定用于语音识别的引擎(默认或 Web API)。

alt text

使用 STT

语音转文本提供了一种极为高效的使用语音“编写” Prompt 的方式,无论是在桌面端还是移动端设备上,它都能稳定可靠地工作。

若要使用 STT,只需点击麦克风图标:

alt text

实时的音频波形图将表明语音已成功捕获:

alt text

STT 模式操作

录音开始后,您可以进行以下操作:

  • 点击对勾图标以保存录音(如果启用了“完成后自动发送”,它将发送并完成;否则您可以手动发送)。
  • 如果您想取消当前录音(例如,您想重新开始一段新的录音),可以点击 “x” 图标以退出录音界面。

alt text

故障排除

常见问题

"int8 compute type not supported" 错误

如果您遇到类似 Error transcribing chunk: Requested int8 compute type, but the target device or backend do not support efficient int8 computation 的错误,这通常意味着您的 GPU 不支持所请求的 int8 计算操作。

解决方案:

  • 升级到最新版本 — 在最近的更新中,计算类型的持久化配置得到了改进,已解决已知的 CUDA 兼容性问题。
  • 切换到标准 Docker 镜像(而不是 :cuda 镜像)— 较旧的 GPU(Maxwell 架构,大约 2014-2016 年)可能无法受到现代 CUDA 加速库的支持。
  • 使用 WHISPER_COMPUTE_TYPE 环境变量更改计算类型
    environment:
      - WHISPER_COMPUTE_TYPE=float16  # 或 float32
提示

对于像 Whisper 这样较小的模型,CPU 模式通常能提供相近的性能,且不会遇到 GPU 兼容性问题。:cuda 镜像主要用于加速 RAG 向量嵌入,对于大多数用户来说,不会显著影响 STT 速度。

麦克风无法工作

  1. 检查浏览器权限 — 确保您的浏览器拥有麦克风访问权限。
  2. 使用 HTTPS — 某些浏览器要求必须使用安全连接 (HTTPS) 才能获取麦克风权限。
  3. 尝试其他浏览器 — Chrome 浏览器通常对 Web Audio API 的支持最好。

识别准确率低

  • 显式指定语言:使用 WHISPER_LANGUAGE=zh(使用 ISO 639-1 代码,中文为 zh)。
  • 切换多语言支持:如果您需要支持英语以外的其他语言,请使用 WHISPER_MULTILINGUAL=true。禁用时(默认),系统仅使用纯英文版本的模型,以便在英语任务中获得更好的表现。
  • 使用更大的 Whisper 模型 — 可选:tinybasesmallmediumlarge
  • 模型越大识别越精准,但推理速度也会越慢。

有关更多详细的故障排除步骤,请参阅 音频故障排除指南

This content is for informational purposes only and does not constitute a warranty, guarantee, or contractual commitment. Open WebUI is provided "as is." See your license for applicable terms.