评估 (Evaluation)

为什么我需要评估模型？

认识一下 Alex，一家中型公司的机器学习工程师。Alex 知道市面上有众多的 AI 模型——各种 GPT、LLaMA 等等，但哪一个最适合眼前的工作呢？它们在纸面上听起来都很令人印象深刻，但 Alex 不能仅仅依赖公开的排行榜。这些模型在不同上下文中的表现各不相同，而且有些模型可能是在评估数据集上进行过训练的（真狡猾！）。此外，这些模型的写作风格有时会让人觉得……有些不对劲。

这就是 Open WebUI 派上用场的地方。它为 Alex 和他们的团队提供了一种根据其实际需求轻松评估模型的简单方法。没有复杂的数学，没有繁重的负担。只需在与模型交互时给个点赞或踩即可。

TL;DR

为什么评估很重要：模型太多，但并非所有模型都适合您的特定需求。一般的公开排行榜并不总是值得信任。
如何解决：Open WebUI 提供了一个内置的评估系统。只需使用点赞/踩来对模型响应进行评分。
幕后发生了什么：评分将调整您的个性化排行榜，已评分聊天的快照将在未来用于模型微调！
评估选项：
- Arena 模式：随机选择模型供您比较。
- 日常互动：像往常一样聊天，然后对响应进行评分。

为什么公开的评估是不够的？

公开排行榜并非针对您的特定使用场景量身定制的。
某些模型在评估数据集上进行过训练，这会影响结果的公平性。
一个模型可能整体表现不错，但它的沟通风格或响应可能不符合您想要的“感觉”。

解决方案：使用 Open WebUI 进行个性化评估

Open WebUI 具有内置的评估功能，可以让您和您的团队在与模型交互的过程中，发现最适合您特定需求的模型。

它是如何工作的？非常简单！

在聊天期间，如果您喜欢某个响应，请点赞；如果不喜欢，请踩。如果该消息有同级消息（Sibling message，例如重新生成的响应或并排模型对比的一部分），您就在为您的个性化排行榜做出贡献。
排行榜可以在 Admin Panel 的管理区域中轻松访问，帮助您跟踪团队认为哪些模型表现最好。

一个很酷的功能是？每当您对响应进行评分时，系统都会捕获该对话的快照，该快照稍后将用于微调模型甚至支持未来的模型训练。（请注意，此功能仍在开发中！）

评估 AI 模型的两种方式

Open WebUI 提供了两种直观的方法来评估 AI 模型。

1. Arena 模式

Arena 模式从可用模型池中随机进行选择，确保评估的公平性和无偏差。这有助于消除手动比较中潜在的缺陷：生态效度 (Ecological validity) —— 确保您不会有意或无意地偏向某一个模型。

如何使用它：

从 Arena 模型选择器中选择模型。
像往常一样使用它，但现在您处于“Arena 模式”。

为了让您的反馈影响排行榜，您需要有所谓的同级消息 (Sibling message)。什么是同级消息？同级消息就是由同一个 Query 生成的任何替代响应（想想消息重新生成，或并排生成响应的多个模型）。通过这种方式，您可以对响应进行两两对决。

评分技巧：当您对一个响应点赞时，另一个响应将自动获得踩。因此，请多加注意，只为您认为真正最好的那条消息投票！
一旦您对响应进行了评分，就可以查看排行榜以了解模型的表现如何。

以下是 Arena 模式界面的运行预览：

Arena Model 示例

需要更深度的对比？您甚至可以复制一个类似于 Chatbot Arena 的设置！

Chatbot Arena 示例

2. 日常互动

如果您不想，则无需切换到“Arena 模式”。您可以正常使用 Open WebUI，并在日常操作中对 AI 模型的响应进行评分。只需在您想评分时对模型响应进行点赞/踩即可。然而，如果您希望您的反馈用于在排行榜上进行排名，您需要更换模型并与不同的模型进行交互。这可以确保有一个同级响应来进行比较 —— 只有两个不同模型之间的比较才会影响排行榜排名。

例如，这是您在日常互动中进行评分的方式：

常规模型评分界面

这是设置多模型对比的示例，类似于竞技场：

多模型对比

排行榜 (Leaderboard)

在评分之后，查看 Admin Panel 下的 Leaderboard。在这里，您将直观地看到模型的表现情况，并使用 Elo 评分系统（想想国际象棋排名！）进行排序。您将能够真实地看到哪些模型在评估过程中真正脱颖而出。

这是一个排行榜的布局示例：

排行榜示例

模型活动跟踪

除了整体的 Elo 评分外，您现在还可以通过**模型活动图表 (Model Activity Chart)**查看模型的历史表现。此功能提供了模型评估如何随时间演变的按时间顺序的视图。

分叉图表 (Diverging Chart)：该图表按日或按周显示胜（正）负（负）情况，为您提供该模型随时间推移可靠性的清晰视觉指标。
时间范围：您可以在不同的时间维度之间切换：最近 30 天、最近 1 年或全部时间。
每周聚合：对于更长的时间范围（1 年和全部），数据会自动按周聚合，以提供更平滑、更易读的趋势。

要查看活动图表，在排行榜中点击一个模型即可打开其详细的评估模态框。

当您对聊天进行评分时，您可以按主题对它们进行标记，以获得更细粒度的洞察。如果您在客户服务、创意写作、技术支持等不同领域工作，这会特别有用。

自动标签

Open WebUI 会尝试根据对话主题自动为聊天贴上标签。然而，根据您使用的模型，自动标签功能有时可能会失败或误读对话。发生这种情况时，最佳实践是手动为您的聊天贴上标签以确保反馈的准确性。

如何手动添加标签：当您对响应进行评分时，您将可以选择根据对话的上下文添加自己的标签。

不要跳过这一步！标签功能非常强大，因为它允许您根据特定主题对模型进行重新排名。例如，您可能希望看到哪个模型在回答技术支持问题与一般客户咨询方面的表现最好。

这是一个如何重新排名的示例：

按主题重新排列的排行榜

补充说明：用于模型微调的聊天快照

每当您对模型的响应进行评分时，Open WebUI 都会捕获该聊天的快照。这些快照最终可用于微调您自己的模型——因此您的评估数据将助力 AI 的持续改进。

（请关注此功能的更多更新，它目前正处于积极的开发中！）

总结

简而言之，Open WebUI 的评估系统有两个明确的目标：

帮助您轻松对比模型。
最终找到最契合您个人需求的模型。

该系统的核心在于让每位用户的 AI 模型评估变得简单、透明且可定制。无论是通过 Arena 模式还是日常聊天互动，您都可以全权掌控决定哪种 AI 模型最适合您的特定使用场景！

默认情况下，所有评估数据都保留在您的实例上，除非您专门选择加入社区共享 (Opt-in for community sharing)，否则不会共享任何内容。

This content is for informational purposes only and does not constitute a warranty, guarantee, or contractual commitment. Open WebUI is provided "as is." See your license for applicable terms.

为什么我需要评估模型？​

TL;DR​

为什么公开的评估是不够的？​

解决方案：使用 Open WebUI 进行个性化评估​

评估 AI 模型的两种方式​

1. Arena 模式​

2. 日常互动​

排行榜 (Leaderboard)​

模型活动跟踪​

自动标签​

补充说明：用于模型微调的聊天快照​

总结​