logo
开发者文档
搜索
概述

概述

知识库是 Agent 的重要组成部分,能够高效地解决 LLM 本身知识量有限以及「幻觉」问题。

Agent 支持按照强制检索按需检索两种模式,基于用户输入的内容,在知识库内进行检索,并返回语义相关的知识信息,供 LLM 提炼总结后,回复给用户。

核心能力

GPTBots RAG 系统致力于把精准的知识提供给 Agent 以构建符合企业业务知识的上下文这一目标,知识库提供以下能力:

  • 文档管理:上传文件、表格、URL、纯文本、Q&A 等多种类型的知识,并按需切片、编辑、定时更新。
  • 切片与向量:每个知识切片会被嵌入为向量并存入向量数据库,支撑语义检索;您可以查看、编辑切片,并测试召回效果。
  • 元数据:为文档打上结构化标签(如来源、上传时间、自定义字段),在检索时按元数据精准过滤。
  • 知识图谱:自动抽取文档中的实体与关系,构建知识网络,支持图谱可视化浏览与图谱召回,增强跨文档、多跳推理类问题的回答。
  • 检索配置:选择检索模式(混合 / 语义 / 关键词),调整相似度阈值、召回数量、重排等参数。
  • 访问控制(ACL):按用户/角色身份决定一次检索能召回哪些文档或切片。在工作空间使用时,谁能在检索时召回这个知识库中的内容。
  • 协作权限:管理「谁能查看、编辑、管理这个知识库本身」。

知识库数据是如何准备的

文档从上传到可被检索,会经历以下处理:

loading...
graph LR
A[上传文档] --> A1[识别解析]
A1[识别解析] --> B[智能切片]
B --> C[向量化 embedding]
B --> D[抽取实体与关系]
C --> E[存入向量数据库]
D --> F[构建知识图谱]

一次检索是如何发生的

当 Agent 需要从知识库中检索知识时,会按以下流程逐步收敛范围、召回并整理结果:

loading...
graph TD
Q[用户提问] --> RL[增强检索]
RL[增强检索] --> ACL[ACL 限定可见范围]
ACL --> MF[元数据过滤]
MF --> R{并行召回}
R --> V[向量召回]
R --> G[知识图谱召回]
V --> M[合并 / 加权]
G --> M
M --> RR[重排 / 排序 取 TopK]
RR --> LLM[LLM 提炼总结]
LLM --> ANS[回复用户]
  • ACL访问控制决定谁能召回哪些内容
  • 元数据过滤在允许范围内进一步按标签筛选
  • 二者取交集后才进入向量与图谱召回。

阅读路径

您可以根据自己的角色,选择适合的阅读顺序:

  • 内容运营 / 知识维护者:先看 文档 了解如何上传与维护知识,再看 元数据 学习如何用标签组织知识。
  • Agent 搭建者 / 调优者:重点阅读 向量 的检索模式与参数、知识图谱 的图谱召回,并用检索测试验证效果。
  • 管理员 / 安全负责人:阅读 访问控制权限,厘清「谁能召回内容」与「谁能管理知识库」两套机制。