输入与输出

GPTBots Agent 支持多种消息类型的输入与输出，包括文本、图片、音频、视频、文档和文件。开发者可根据业务需求，在输入自定义可向 Agent 提交的消息类型，定义提交消息的方式（一问一答或对话打断）。在输出自定义 Agent 向用户返回的语言、消息类型、TTS音色和工具调用状态，从而提升用户体验与交互效率。

消息类型

GPTBots 平台支持的消息类型被定义为：文本、图片、音频、视频、文档和文件共 6 种类型。消息类型是 Agent 与用户之间的通信协议，方便用户与智能体进行交互。Agent可以输入的消息类型根据「输入-附件」功能的配置决定。Agent可输出的消息类型根据 Agent 所采用的 LLM 的能力决定。

消息类型	消息格式	大小限制
Text消息	默认为string类型，默认强制支持	根据 LLM 的上下文 tokens 长度
Image消息	.jpg,.jpeg,.png,.gif,.webp 等	≤ 10 MB
Audio消息	.wav,.mp3 等	≤ 25 MB
Video消息	.mp4 等	≤ 50 MB
Docment消息	.pdf,.txt,.docx,.xls,.csv,.html,.json,.md 等	≤ 25 MB
Files消息	默认为.zip 类型，文件URL将被强制放在 Text 消息中	≤ 25 MB

注意：Image消息、Audio消息、Video消息和 Docment消息的格式支持，根据选择「系统识别」和「LLM识别」而有所不同。

附件上传文件后,Agent中处理识别文件的业务流程图如下：

flowchart TD
    A[用户输入消息] --> B{选择支持消息类型}
    B --> |文本| C[文本处理]
    B --> |图片| D[图片处理]
    B --> |音频| E[音频处理]
    B --> |视频| F[视频处理]
    B --> |文档| G[文档处理]
    B --> |文件| H[文件处理]
    C & D & E & F & G & H --> I[统一传递至Agent]
    I --> J{文件识别方式}
    J --> K[LLM文件识别]
    J --> L[系统文件识别]

用户消息提交后,Agent响应不同消息类型的业务流程图如下：

flowchart TD
    A[用户请求] --> B[Agent处理]
    B --> C{输出消息类型}
    C --> D1[文本消息]
    D1 -- 是否需要TTS --> E{TTS语音生成?}
    E -- 否 --> F1[直接输出文本]
    E -- 是 --> F2[调用TTS服务]
    F2 --> G1[输出音频消息]
    C --> D2[音频消息]
    D2 --> G2[直接输出音频]
    C --> D3[图片消息]
    D3 --> G3[直接输出图片]

输入指南

语音

语音录制选项
GPTBots 支持语音输入，用户可以选择通过麦克风或上传音频文件的方式进行语音输入。在语音输入时，开发者可以根据业务需要，选择以下三个选项：

当选择「禁用」时，Agent 信息输入框将隐藏语音录制按钮，禁止用户通过语音方式进行输入。
当选择「语言转文字」时，Agent 信息输入框将展示语音录制按钮，允许用户通过语音录制方式进行输入。并调用ASR模型将语音转换为文本消息。
当选择「提交 Audio 消息」时，Agent 信息输入框将展示语音录制按钮，允许用户通过语音录制方式进行输入。并将语音文件提交至 Agent 中的 LLM 直接识别和处理。

注意：「提交 Audio 消息」选项是否可用，根据选择 Agent 中 LLM 文件识别能力所决定，FlowAgent 则由所有 LLM 模型文件识别能力的交集所决定

附件

智能体-输入选项
GPTBots 附件功能允许用户选择附件识别方案，允许用户自定义所需支持的消息类型，以满足不同业务场景下的需求。附件支持「禁用」、「LLM文件识别」和「系统文件识别」三种方案。

当选择「禁用」时：
- Agent 信息输入框将隐藏附件上传按钮，禁止用户通过附件方式上传各类文件。
当选择「LLM文件识别」时：
- Agent 信息输入框将展示附件上传按钮，允许用户通过附件方式上传各类文件。
- 文件类型支持：Agent 由所采用的 LLM 文件识别能力所决定，FlowAgent 则由所有 LLM 模型文件识别能力的交集所决定。
- 成功上传文件后，将 Agent 中的 LLM 直接识别和处理。
当选择「系统识别」时：
- Agent 会将用户上传的附件进行识别提取，转换为文本消息后作为用户问题提交至 Agent 的LLM。
- 文件类型支持：当前由 GPTBots 平台对文件的识别能力所决定。
附件数量：
- 系统最大附件数量限制为 9 个，默认为 1 个。

消息提交方式

一问一答模式：每次仅提交一条消息，等待AI响应结束后方可提交下一条消息。
对话打断模式：在特定情况下，支持同时提交多条消息，由 AI 进行统一回复。更加符合人类交流习惯，提升用户体验。

开启对话打断功能后，同时满足AI响应未完成、5秒内和最多5条消息上述 3 个条件的多条消息，会被合并提交至 LLM 。

输出指南

输出控制

智能体-输出选项

Agent输出语言：根据 LLM 的语言能力，可设置Agent所输出的语言（语言控制为软性引导，无法保证百分之百生效）。
工具调用状态：支持隐藏/展示工具调用的过程状态，可根据业务需求进行设置。
工作流调用状态：支持隐藏/展示工作流调用的过程状态，可根据业务需求进行设置。

声音

alt text

禁用：Agent 不支持 TTS 输出。
TTS语音生成：支持自定义选择 TTS 模型服务和音色，可将文本消息转换为声音播放。

注意：TTS 语音生成仅适用于 Agent 所回复文本消息，其他消息类型不支持 TTS 语音生成。

4. 常见问题解答（FAQ）

Q1: 如何限制用户只能上传特定类型的文件？

A: 在输入模块配置中，仅勾选允许的消息类型（如只勾选“文档”），Agent 将自动拒绝其他类型的输入。

Q2: Agent 支持多语言回复吗？

A: 支持。可在输出模块设置多种语言，Agent 会根据配置或用户偏好返回相应语言的消息。

Q3: TTS 音色如何自定义？

A: 在输出模块选择支持的 TTS 音色（如 male、female 或自定义音色），部分高级模型支持上传自定义音色包。

Q4: 对话打断模式下，如何保证上下文连续性？

A: GPTBots Agent 会自动管理会话上下文，确保多轮对话时上下文信息完整传递。

Q5: 工具调用状态显示有什么作用？

A: 当 Agent 集成了外部工具（如知识检索、API 调用），可通过该开关决定是否将工具调用结果展示给用户。

Q6: 如何使用语音转文字（ASR模型）的提示词功能？

A: ASR 模型的提示词与一般 LLM 的用法不同，主要有三种使用方式：

强化识别常用名词。例如：股票、股票代码、股票名称等。
提示对话场景。例如：用于医疗专家对话场景。
强化语言识别。例如：用繁体中文转录。

Q7: 如何强化语音转文字（ASR模型）的语言识别能力？

A: 在帐号 > 个人中心的语言偏好清单中选择常用语言。