✨ 输入自动补全
Open WebUI 提供了由 AI 驱动的输入自动补全 (Autocomplete) 功能,可在您输入提示词时实时提供文本补全建议。它就如同您输入框的 “Copilot”(副驾驶),借助您配置的专用任务模型,协助您更高效地撰写提示词。
工作原理
启用后,Open WebUI 会监视您在聊天输入框中的键入内容。当您暂停输入时,它会将当前输入的文本发送给轻量级的任务模型 (Task Model)。该模型会预测接下来最可能出现的单词或句子,并以覆盖在输入框中的“虚线/幽灵文本 (ghost text)”形式呈现补全建议。
- 接受建议:按下
Tab键(或右箭头键)即可接受建议。 - 拒绝/忽略:直接继续打字即可覆盖并忽略补全建议。
自动补全功能的流畅度极大地依赖于您的任务模型的响应速度。我们强烈建议使用小体积、响应快速的非推理 (non-reasoning) 模型,以确保补全建议能够即时弹出。
推荐模型:
- Llama 3.2 (1B 或 3B)
- Qwen 3 (0.6B 或 3B)
- Gemma 3 (1B 或 4B)
- GPT-5 Nano(针对低延迟进行了专门优化)
请避免为该功能配置“推理 (Reasoning)”模型(如 o1、o3)或体量巨大的思维链 (Chain-of-Thought) 模型,因为其延迟会导致自动补全体验极为卡顿。
配置说明
自动补全功能由双层架构控制:全局可用性与用户偏好。
1. 全局配置(管理员)
管理员控制 自动补全功能是否在服务器上全局可用。
1. 配置自动补全(全局)
管理员面板设置: 转到 管理员面板 (Admin Panel) > 设置 (Settings) > 界面 (Interface) > 任务模型 (Task Model),并开启 自动补全生成 (Autocomplete Generation)。
2. 用户配置(个人)
即使管理员在全局启用了此功能,如果个别用户觉得补全建议会打扰思路,仍可为自己关闭此项功能。
- 前往 设置 (Settings) > 界面 (Interface)。
- 切换 自动补全生成 (Autocomplete Generation) 的开启状态。
如果管理员在全局禁用了自动补全,用户将无法在个人设置中将其开启。
性能与故障排除
为什么没有显示补全建议?
- 检查设置:确认管理员设置和用户个人设置中均已开启该功能。
- 任务模型:转到管理员面板设置 > 界面,验证是否已选择任务模型。如果未选择任何模型,该功能将无法生成预测。
- 延迟:如果您的任务模型体量较大或运行在较慢的硬件上,预测建议可能会来不及生成。请切换到更小的模型。
- 推理模型:确保您没有使用“推理”模型(如 o1 或 o3),因为它们内部复杂的思考过程会带来极高的延迟,从而破坏实时自动补全的即时体验。
性能影响
每当您暂停输入时(防抖处理 debounced),自动补全都会向您的大语言模型 (LLM) 发送一次请求。
- 本地模型:这会在宿主机上消耗可观的 GPU/CPU 资源。
- API 服务商:这会产生大量的 API 调用频次(尽管请求和生成的 Token 数量通常非常短)。请留意您的服务商所设定的速率限制 (Rate Limits)(每分钟请求数 RPM 和每分钟 Token数 TPM),以避免被限制调用。
对于在受限本地硬件上运行的多用户实例,我们建议禁用自动补全功能,以将硬件资源优先分配给实际的聊天对话生成。