文档提取
Open WebUI 中的文档提取
Open WebUI 提供了强大的文档提取功能,使您能够在 RAG(检索增强生成)工作流中处理和分析各种类型的文档。文档提取对于将非结构化文档内容转换为可供语言模型有效利用的结构化数据至关重要。
什么是文档提取?
文档提取是指自动识别并从各种文件格式中提取文本和数据的过程,包括:
- PDF(基于文本的 PDF 及扫描版 PDF)
- 包含文本的图像
- 手写文档
- 更多其他格式
通过合适的文档提取,Open WebUI 可以帮助您:
- 将基于图像的文档转换为可搜索的文本
- 保留文档结构和版面信息
- 以结构化格式提取数据以便进一步处理
- 支持多语言内容识别
临时聊天中的隐私保护
在 Temporary Chat(临时聊天)模式下,文档提取完全在浏览器中执行,以防止数据在后端被存储或处理。这种严格的隐私措施意味着,某些依赖后端解析器的复杂文件格式(如某些 DOCX 文件)可能无法被正确处理。
可用的提取方法
Open WebUI 支持多种文档提取引擎,以适应不同的需求 and 文档类型。每种提取方法都有其独特的优势,并适用于不同的场景。
探索每种可用提取方法的文档,了解如何对其进行设置以及如何在您的 Open WebUI 实例中高效使用它。