Open WebUI & llama.cpp
最后更新时间:2026年5月
Georgi Gerganov 发起的 llama.cpp 是 AI 生态系统中最具分量的项目之一。我们真心如此认为:如果没有 llama.cpp,我们所知的本地 AI 运动就不可能存在。它证明了您完全可以在消费级硬件上运行大型模型,引入了成为行业标准的 GGUF 格式,并启发了整整一代的工具。随着 llama-server 的推出,它已不仅仅是一个引擎,更自带了内置 Web 界面和开箱即用的兼容 OpenAI 的 API。
llama.cpp 的优势
- 前沿的推理性能,在消费级硬件上不断突破性能极限
- 内置 Web 界面,通过
llama-server即可开箱即用 - 广泛的硬件支持,包括 CPU, CUDA, Metal, Vulkan 和 SYCL
- GGUF 格式,已成为全行业的量化模型标准
- 量化选项丰富,支持从 Q2 到 Q8 等多种量化策略,以在质量与速度间权衡
- 投机采样(Speculative decoding),通过草稿模型(draft model)实现更快的生成速度
- Flash Attention 以及其他先进的推理优化
- 语法限制生成,可生成结构化输出(如 JSON、代码等)
- 兼容 OpenAI 的 API,通过
llama-server方便任何工具接入 - 多模型路由模式,支持在单个终结点(endpoint)下提供多个模型服务
- AI 领域最活跃的项目之一,提交代码的更新频率几乎无人能及
- MIT 许可证开源,且完全由社区驱动
Open WebUI 的优势
- 功能丰富的 Web 平台,提供完整的 Chat、对话、历史记录、分类管理和搜索
- 知识库与 RAG,提供 9 种向量数据库、5 种提取引擎,以及结合重排的混合检索
- Python 扩展性,支持自定义工具、MCP 服务器、Pipelines 以及社区扩展
- 多提供商支持,可将 llama.cpp 模型与 OpenAI, Anthropic, Google 等的模型并排使用
- 团队平台,包括 Channels、Notes、Automations、RBAC、SSO/OIDC/LDAP 和 SCIM 2.0
- Open Terminal,提供用于代码执行的完整计算环境
- 多用户支持,从单人到成千上万用户均可轻松承载
如何选择
如果您 想完全控制推理,请直接使用 llama.cpp。它能提供极其精细的量化、上下文大小、批处理和硬件利用率调优,这是任何外壳包装器都无法比拟的。其内置的 Web UI 非常适合单人使用。
如果您需要更丰富的界面、知识库、团队访问权限,或者希望在 llama.cpp 之外接入其他提供商,请搭配使用 Open WebUI。Open WebUI 可以通过兼容 OpenAI 的 API 与 llama-server 进行通信。
两者结合使用。 llama.cpp 以卓越的性能负责模型推理。Open WebUI 则负责平台层,包含知识库、工具和团队协作。
协同使用
llama.cpp 的 llama-server 提供了兼容 OpenAI 的 API,这意味着 Open WebUI 可以直接与之连接。使用 llama.cpp 进行高性能推理,搭配 Open WebUI 处理平台层。
# 启动 llama-server
llama-server -m your-model.gguf --port 8081
# 将 Open WebUI 指向它
# 在 Admin → Settings → Connections 中,添加:
# URL: http://localhost:8081/v1llama.cpp 让本地 AI 成为可能。Open WebUI 则在之上建立了平台层。它们协同工作,相得益彰。
准备好尝试 Open WebUI 了吗? 立即开始 →
常见问题解答
我可以将 llama-server 连接 to Open WebUI 吗?
是的。llama-server 提供了一个兼容 OpenAI 的 API。在 Open WebUI 中添加 http://localhost:8081/v1 作为连接,您的模型就会自动显示出来。
Open WebUI 支持 llama-server 的多模型路由吗? 是的。如果您在带有多个模型的路由模式下运行 llama-server,Open WebUI 会通过 API 自动检测并列出所有可用模型。
llama.cpp 是免费的吗? 是的。llama.cpp 采用 MIT 许可证开源,完全免费使用。
相关阅读: Open WebUI & Ollama · Open WebUI & LM Studio · Open WebUI & Jan