概述

知识库是 Agent 的重要组成部分，能够高效地解决 LLM 本身知识量有限以及「幻觉」问题。

Agent 支持按照强制检索和按需检索两种模式，基于用户输入的内容，在知识库内进行检索，并返回语义相关的知识信息，供 LLM 提炼总结后，回复给用户。

核心能力

GPTBots RAG 系统致力于把精准的知识提供给 Agent 以构建符合企业业务知识的上下文这一目标，知识库提供以下能力：

文档管理：上传文件、表格、URL、纯文本、Q&A 等多种类型的知识，并按需切片、编辑、定时更新。
切片与向量：每个知识切片会被嵌入为向量并存入向量数据库，支撑语义检索；您可以查看、编辑切片，并测试召回效果。
元数据：为文档打上结构化标签（如来源、上传时间、自定义字段），在检索时按元数据精准过滤。
知识图谱：自动抽取文档中的实体与关系，构建知识网络，支持图谱可视化浏览与图谱召回，增强跨文档、多跳推理类问题的回答。
检索配置：选择检索模式（混合 / 语义 / 关键词），调整相似度阈值、召回数量、重排等参数。
访问控制（ACL）：按用户/角色身份决定一次检索能召回哪些文档或切片。在工作空间使用时，谁能在检索时召回这个知识库中的内容。
协作权限：管理「谁能查看、编辑、管理这个知识库本身」。

知识库数据是如何准备的

文档从上传到可被检索，会经历以下处理：

graph LR
A[上传文档] --> A1[识别解析]
A1[识别解析] --> B[智能切片]
B --> C[向量化 embedding]
B --> D[抽取实体与关系]
C --> E[存入向量数据库]
D --> F[构建知识图谱]

一次检索是如何发生的

当 Agent 需要从知识库中检索知识时，会按以下流程逐步收敛范围、召回并整理结果：

graph TD
Q[用户提问] --> RL[增强检索]
RL[增强检索] --> ACL[ACL 限定可见范围]
ACL --> MF[元数据过滤]
MF --> R{并行召回}
R --> V[向量召回]
R --> G[知识图谱召回]
V --> M[合并 / 加权]
G --> M
M --> RR[重排 / 排序 取 TopK]
RR --> LLM[LLM 提炼总结]
LLM --> ANS[回复用户]

ACL访问控制决定谁能召回哪些内容

元数据过滤在允许范围内进一步按标签筛选

二者取交集后才进入向量与图谱召回。

阅读路径

您可以根据自己的角色，选择适合的阅读顺序：

内容运营 / 知识维护者：先看文档了解如何上传与维护知识，再看元数据学习如何用标签组织知识。
Agent 搭建者 / 调优者：重点阅读向量的检索模式与参数、知识图谱的图谱召回，并用检索测试验证效果。
管理员 / 安全负责人：阅读访问控制与权限，厘清「谁能召回内容」与「谁能管理知识库」两套机制。