跳到主要内容

✨ 输入自动补全

Open WebUI 提供了由 AI 驱动的输入自动补全 (Autocomplete) 功能,可在您输入提示词时实时提供文本补全建议。它就如同您输入框的 “Copilot”(副驾驶),借助您配置的专用任务模型,协助您更高效地撰写提示词。

工作原理

启用后,Open WebUI 会监视您在聊天输入框中的键入内容。当您暂停输入时,它会将当前输入的文本发送给轻量级的任务模型 (Task Model)。该模型会预测接下来最可能出现的单词或句子,并以覆盖在输入框中的“虚线/幽灵文本 (ghost text)”形式呈现补全建议。

  • 接受建议:按下 Tab 键(或 右箭头 键)即可接受建议。
  • 拒绝/忽略:直接继续打字即可覆盖并忽略补全建议。
性能建议

自动补全功能的流畅度极大地依赖于您的任务模型的响应速度。我们强烈建议使用小体积、响应快速的非推理 (non-reasoning) 模型,以确保补全建议能够即时弹出。

推荐模型

  • Llama 3.2 (1B 或 3B)
  • Qwen 3 (0.6B 或 3B)
  • Gemma 3 (1B 或 4B)
  • GPT-5 Nano(针对低延迟进行了专门优化)

请避免为该功能配置“推理 (Reasoning)”模型(如 o1、o3)或体量巨大的思维链 (Chain-of-Thought) 模型,因为其延迟会导致自动补全体验极为卡顿。

配置说明

自动补全功能由双层架构控制:全局可用性与用户偏好。

1. 全局配置(管理员)

管理员控制自动补全功能是否在服务器上全局可用。

1. 配置自动补全(全局)

管理员面板设置: 转到 管理员面板 (Admin Panel) > 设置 (Settings) > 界面 (Interface) > 任务模型 (Task Model),并开启 自动补全生成 (Autocomplete Generation)

2. 用户配置(个人)

即使管理员在全局启用了此功能,如果个别用户觉得补全建议会打扰思路,仍可为自己关闭此项功能。

  • 前往 设置 (Settings) > 界面 (Interface)
  • 切换 自动补全生成 (Autocomplete Generation) 的开启状态。
备注

如果管理员在全局禁用了自动补全,用户将无法在个人设置中将其开启。

性能与故障排除

为什么没有显示补全建议?

  1. 检查设置:确认管理员设置和用户个人设置中均已开启该功能。
  2. 任务模型:转到管理员面板设置 > 界面,验证是否已选择任务模型。如果未选择任何模型,该功能将无法生成预测。
  3. 延迟:如果您的任务模型体量较大或运行在较慢的硬件上,预测建议可能会来不及生成。请切换到更小的模型。
  4. 推理模型:确保您没有使用“推理”模型(如 o1 或 o3),因为它们内部复杂的思考过程会带来极高的延迟,从而破坏实时自动补全的即时体验。

性能影响

每当您暂停输入时(防抖处理 debounced),自动补全都会向您的大语言模型 (LLM) 发送一次请求。

  • 本地模型:这会在宿主机上消耗可观的 GPU/CPU 资源。
  • API 服务商:这会产生大量的 API 调用频次(尽管请求和生成的 Token 数量通常非常短)。请留意您的服务商所设定的速率限制 (Rate Limits)(每分钟请求数 RPM 和每分钟 Token数 TPM),以避免被限制调用。
注意

对于在受限本地硬件上运行的多用户实例,我们建议禁用自动补全功能,以将硬件资源优先分配给实际的聊天对话生成。

This content is for informational purposes only and does not constitute a warranty, guarantee, or contractual commitment. Open WebUI is provided "as is." See your license for applicable terms.