logo
开发者文档
搜索
输入与输出

输入与输出

GPTBots Agent 支持多种消息类型的输入与输出,包括文本、图片、音频、视频、文档和文件。开发者可根据业务需求,在输入自定义可向 Agent 提交的消息类型,定义提交消息的方式(一问一答 或 对话打断)。在输出自定义 Agent 向用户返回的语言、消息类型、TTS音色和工具调用状态,从而提升用户体验与交互效率。

消息类型

GPTBots 平台支持的消息类型被定义为:文本、图片、音频、视频、文档和文件共 6 种类型。消息类型是 Agent 与用户之间的通信协议,方便用户与智能体进行交互。Agent可以输入的消息类型根据「输入-附件」功能的配置决定。Agent可输出的消息类型根据 Agent 所采用的 LLM 的能力决定。

消息类型 消息格式 大小限制
Text消息 默认为string类型,默认强制支持 根据 LLM 的上下文 tokens 长度
Image消息 .jpg,.jpeg,.png,.gif,.webp 等 ≤ 10 MB
Audio消息 .wav,.mp3 等 ≤ 25 MB
Video消息 .mp4 等 ≤ 50 MB
Docment消息 .pdf,.txt,.docx,.xls,.csv,.html,.json,.md 等 ≤ 25 MB
Files消息 默认为.zip 类型,文件URL将被强制放在 Text 消息中 ≤ 25 MB

注意:Image消息、Audio消息、Video消息和 Docment消息的格式支持,根据选择「系统识别」和「LLM识别」而有所不同。

  • 附件上传文件后,Agent中处理识别文件的业务流程图如下:
flowchart TD
    A[用户输入消息] --> B{选择支持消息类型}
    B --> |文本| C[文本处理]
    B --> |图片| D[图片处理]
    B --> |音频| E[音频处理]
    B --> |视频| F[视频处理]
    B --> |文档| G[文档处理]
    B --> |文件| H[文件处理]
    C & D & E & F & G & H --> I[统一传递至Agent]
    I --> J{文件识别方式}
    J --> K[LLM文件识别]
    J --> L[系统文件识别]
  • 用户消息提交后,Agent响应不同消息类型的业务流程图如下:
flowchart TD
    A[用户请求] --> B[Agent处理]
    B --> C{输出消息类型}
    C --> D1[文本消息]
    D1 -- 是否需要TTS --> E{TTS语音生成?}
    E -- 否 --> F1[直接输出文本]
    E -- 是 --> F2[调用TTS服务]
    F2 --> G1[输出音频消息]
    C --> D2[音频消息]
    D2 --> G2[直接输出音频]
    C --> D3[图片消息]
    D3 --> G3[直接输出图片]

输入指南

语音

语音录制选项
GPTBots 支持语音输入,用户可以选择通过麦克风或上传音频文件的方式进行语音输入。在语音输入时,开发者可以根据业务需要,选择以下三个选项:

  • 当选择「禁用」时,Agent 信息输入框将隐藏语音录制按钮,禁止用户通过语音方式进行输入。
  • 当选择「语言转文字」时,Agent 信息输入框将展示语音录制按钮,允许用户通过语音录制方式进行输入。并调用ASR模型将语音转换为文本消息。
  • 当选择「提交 Audio 消息」时,Agent 信息输入框将展示语音录制按钮,允许用户通过语音录制方式进行输入。并将语音文件提交至 Agent 中的 LLM 直接识别和处理。

    注意:「提交 Audio 消息」选项是否可用,根据选择 Agent 中 LLM 文件识别能力所决定,FlowAgent 则由所有 LLM 模型文件识别能力的交集所决定

附件

智能体-输入选项
GPTBots 附件功能允许用户选择附件识别方案,允许用户自定义所需支持的消息类型,以满足不同业务场景下的需求。附件支持「禁用」、「LLM文件识别」和「系统文件识别」三种方案。

  • 当选择「禁用」时:
    • Agent 信息输入框将隐藏附件上传按钮,禁止用户通过附件方式上传各类文件。
  • 当选择「LLM文件识别」时:
    • Agent 信息输入框将展示附件上传按钮,允许用户通过附件方式上传各类文件。
    • 文件类型支持:Agent 由所采用的 LLM 文件识别能力所决定,FlowAgent 则由所有 LLM 模型文件识别能力的交集所决定。
    • 成功上传文件后,将 Agent 中的 LLM 直接识别和处理。
  • 当选择「系统识别」时:
    • Agent 会将用户上传的附件进行识别提取,转换为文本消息后作为用户问题提交至 Agent 的LLM。
    • 文件类型支持:当前由 GPTBots 平台对文件的识别能力所决定。
  • 附件数量:
    • 系统最大附件数量限制为 9 个,默认为 1 个。

消息提交方式

  • 一问一答模式:每次仅提交一条消息,等待AI响应结束后方可提交下一条消息。
  • 对话打断模式:在特定情况下,支持同时提交多条消息,由 AI 进行统一回复。更加符合人类交流习惯,提升用户体验。

    开启对话打断功能后,同时满足AI响应未完成5秒内最多5条消息上述 3 个条件的多条消息,会被合并提交至 LLM 。

输出指南

输出控制

智能体-输出选项

  • Agent输出语言:根据 LLM 的语言能力,可设置Agent所输出的语言(语言控制为软性引导,无法保证百分之百生效)。
  • 工具调用状态:支持隐藏/展示工具调用的过程状态,可根据业务需求进行设置。
  • 工作流调用状态:支持隐藏/展示工作流调用的过程状态,可根据业务需求进行设置。

声音

alt text

  • 禁用:Agent 不支持 TTS 输出。
  • TTS语音生成:支持自定义选择 TTS 模型服务和音色,可将文本消息转换为声音播放。

    注意:TTS 语音生成仅适用于 Agent 所回复文本消息,其他消息类型不支持 TTS 语音生成。

4. 常见问题解答(FAQ)

Q1: 如何限制用户只能上传特定类型的文件?

A: 在输入模块配置中,仅勾选允许的消息类型(如只勾选“文档”),Agent 将自动拒绝其他类型的输入。

Q2: Agent 支持多语言回复吗?

A: 支持。可在输出模块设置多种语言,Agent 会根据配置或用户偏好返回相应语言的消息。

Q3: TTS 音色如何自定义?

A: 在输出模块选择支持的 TTS 音色(如 male、female 或自定义音色),部分高级模型支持上传自定义音色包。

Q4: 对话打断模式下,如何保证上下文连续性?

A: GPTBots Agent 会自动管理会话上下文,确保多轮对话时上下文信息完整传递。

Q5: 工具调用状态显示有什么作用?

A: 当 Agent 集成了外部工具(如知识检索、API 调用),可通过该开关决定是否将工具调用结果展示给用户。