logo
开发者文档
搜索
文档管理

文档管理

文档是知识库的基本组成单位。您可以向知识库添加多种类型的文档,系统会将其识别解析、智能切分为「切片」并向量化,供 Agent 检索使用。

添加

类型

您可以添加多种类型的文档,使之成为 Agent 的知识。但无论添加的什么样类型的文档,最终系统都会在上传时要求明确选择知识类型(文档、表格和QA三种类型),以便系统后续做针对性的处理:
alt text

知识格式

  • 文档:适用于文件、URL、TXT等类型的知识,系统会将其解析为md格式,最大程度的保留结构层级、图片、视频、代码、表格等信息。
  • 表格:适用于表格类型的知识,系统会将其切分成一个个行式的切片,并保留表头信息。
  • Q&A:适用于问答对类型的知识,系统会将每个问答对作为一个切片,保留问答的结构信息。

文档格式

  • 文件:支持 .doc/.docx/.pdf/.md/.txt 等多种格式。
  • 表格:支持 .xls/.xlsx/.csv 格式。
  • URL:提供网站的 URL,系统将爬取网页内容作为知识库的知识。
  • TXT:直接在线输入内容作为知识。
  • Q&A:以「Q&A(问答对,即一问一答)」为结构的知识类型。

切片

  1. 不同的文档类型提供了不同的切片方式,您可以在页面中预览切片效果。对于文件、URL、TXT 类型,可以选择两种不同的切片方式:
    alt text
  • 按 Token 数:基于设定的 Token 数进行切片。例如,设定为「1000」,则为文档按每 1000 Token 生成一个切片。
  • 按标识符:基于选定的标识符进行切片。例如,设定为「\n」,即换行符,则为文档按每次换行,生成一个切片。
  1. 对于表格类型,可以选择多行作为表头。系统将会基于「表头+行」的方式,对表格数据进行切片。最终保存为JSON格式的切片,并保留表头信息。
    alt text
  2. 对于 Q&A 类型,则不需要选择切片方式,系统将自动将每个 Q&A 作为一个切片。

切片的大小会影响检索效果:切片过大可能引入无关内容,切片过小可能丢失上下文。建议先用默认值,并在检索测试页面的命中测试中验证召回质量后再调整。

复制/启动知识

系统允许选择知识库的知识文档,将知识文档复制移动到同组织内的其他 Agent 的知识库中,从而实现知识的共享和复用。

  • 复制:被复制的文档在目标知识库中会生成一个新的文档,两个文档之间没有关联关系;后续对任一文档的修改都不会影响另一个文档。
  • 移动:被移动的文档会从原知识库中删除,并在目标知识库中生成一个新的文档;后续对该文档的修改不会影响其他文档。
    alt text

编辑文档

  1. 编辑已入库的文档,可以查看该文档识别解析的切片结果,可对比查看源文档和切片信息。
    alt text
  2. 对于已经添加入库的文档,可在线进行二次编辑,包含修改文档各切片的内容、新增切片、禁用/启用切片、优化关键词等操作,以持续提升检索质量。
    alt text
  3. 同时支持为文档的元数据字段赋值,便于在检索时进行精准过滤。
    alt text

知识更新

对于通过 URL 添加的文档,您可以让系统自动或手动重新抓取网页内容,保持知识与网站同步。对于 Google Drive 有源知识链接,系统也支持定期检查文件更新并同步最新内容。

  • 仅运行一次:则默认在添加时运行一次,后续不再自动更新。
  • 定时更新:则可以设定每天/每周/每月/间隔的更新频率,系统会按照设定的频率自动重新抓取网页内容并更新知识库。
  • 对于 Google Drive 有源知识链接,系统会定期检查文件是否有更新变动,若有更新则自动重新抓取最新内容并更新知识库,若无更新则不进行更新操作。
  • 对于URL类型的无法有效判断是否有更新,所以每次都会重新抓取并更新知识库。
    alt text

文档与元数据

文档被添加后,系统会自动为其记录一组元数据(如文档名、上传者、上传时间、来源等),您也可以为文档补充自定义的元数据字段。这些信息可用于在检索时精准过滤知识范围。