Entrada y salida

El agente de GPTBots admite varios tipos de mensajes de entrada y salida, incluidos texto, imágenes, audio, vídeo, documentos y archivos. Los desarrolladores pueden personalizar, en entrada, los tipos de mensajes que se pueden enviar al agente según las necesidades del negocio y definir el método de envío (modo de un solo turno o conversación interrumpible). En salida, los desarrolladores pueden personalizar el idioma, el tipo de mensaje, el tono de voz de TTS y el estado de invocación de herramientas que el agente devuelve a los usuarios, mejorando así la experiencia del usuario y la eficiencia de la interacción.

Tipos de mensajes

Los tipos de mensajes admitidos por la plataforma GPTBots se clasifican en seis tipos: texto, imágenes, audio, vídeo, documentos y archivos. Los tipos de mensajes constituyen el protocolo de comunicación entre el agente y los usuarios, facilitando la interacción con el agente. Los tipos de mensajes que el agente puede introducir dependen de la configuración de la función "Input-Attachment" (adjuntos de entrada). Los tipos de mensajes que el agente puede emitir dependen de las capacidades del LLM adoptado por el agente.

Tipo de mensaje	Formato del mensaje	Límite de tamaño
Mensaje de texto	De forma predeterminada es de tipo cadena (string), obligatorio de forma predeterminada	En función de la longitud de tokens de contexto del LLM
Mensaje de imagen	.jpg, .jpeg, .png, .gif, .webp, etc.	≤ 10 MB
Mensaje de audio	.wav, .mp3, etc.	≤ 25 MB
Mensaje de vídeo	.mp4, etc.	≤ 50 MB
Mensaje de documento	.pdf, .txt, .docx, .xls, .csv, .html, .json, .md, etc.	≤ 25 MB
Mensaje de archivos	El formato predeterminado es .zip; la URL del archivo se inserta de forma obligatoria en el mensaje de texto	≤ 25 MB

Nota: La compatibilidad de formatos para mensajes de imagen, audio, vídeo y documento varía en función de la elección de "System Recognition" (reconocimiento del sistema) y "LLM Recognition" (reconocimiento por LLM).

Tras cargar un archivo adjunto, el diagrama del flujo de negocio para el reconocimiento de archivos en el agente es el siguiente:

flowchart TD
    A[User Input Message] --> B{Select Supported Message Type}
    B --> |Text| C[Text Processing]
    B --> |Image| D[Image Processing]
    B --> |Audio| E[Audio Processing]
    B --> |Video| F[Video Processing]
    B --> |Document| G[Document Processing]
    B --> |File| H[File Processing]
    C & D & E & F & G & H --> I[Unified Transmission to Agent]
    I --> J{File Recognition Method}
    J --> K[LLM File Recognition]
    J --> L[System File Recognition]

Tras el envío del mensaje del usuario, el diagrama del flujo de negocio de la respuesta del agente para distintos tipos de mensajes es el siguiente:

flowchart TD
    A[User Request] --> B[Agent Processing]
    B --> C{Output Message Type}
    C --> D1[Text Message]
    D1 -- Need TTS? --> E{TTS Voice Generation?}
    E -- No --> F1[Directly Output Text]
    E -- Yes --> F2[Invoke TTS Service]
    F2 --> G1[Output Audio Message]
    C --> D2[Audio Message]
    D2 --> G2[Directly Output Audio]
    C --> D3[Image Message]
    D3 --> G3[Directly Output Image]

Guía de entrada

Voz

alt text
GPTBots admite la entrada por voz, lo que permite a los usuarios elegir entre utilizar un micrófono o cargar un archivo de audio para la entrada por voz. Durante la entrada por voz, los desarrolladores pueden seleccionar las siguientes tres opciones:

Si se selecciona "Disable", se oculta el botón Voice Recording en el cuadro de entrada del agente, lo que impide a los usuarios introducir contenido mediante voz.
Si se selecciona "Speech-to-Text", se muestra el botón Voice Recording en el cuadro de entrada del agente, lo que permite a los usuarios introducir contenido mediante grabación de voz. Se invoca el modelo ASR para convertir la voz en un mensaje de texto.
Si se selecciona "Submit Audio Message", se muestra el botón Voice Recording en el cuadro de entrada del agente, lo que permite a los usuarios introducir contenido mediante grabación de voz. El archivo de audio se envía al LLM en el agente para su reconocimiento y procesamiento directos.

Nota: La disponibilidad de la opción "Submit Audio Message" depende de las capacidades de reconocimiento de archivos del LLM en el agente. En el caso de FlowAgent, se determina por la intersección de las capacidades de reconocimiento de archivos de todos los modelos LLM.

Archivos adjuntos

Agent Attachments
La función de archivos adjuntos de GPTBots permite a los usuarios seleccionar Attachment Recognition Schemes y personalizar los tipos de mensajes que necesitan admitir, satisfaciendo las necesidades de distintos escenarios de negocio. Los archivos adjuntos admiten tres esquemas: "Disable", "LLM File Recognition" y "System File Recognition".

Si se selecciona "Disable":
- Se oculta el botón Attachment Upload en el cuadro de entrada del agente, lo que impide a los usuarios cargar distintos archivos mediante adjuntos.
Si se selecciona "LLM File Recognition":
- Se muestra el botón Attachment Upload en el cuadro de entrada del agente, lo que permite a los usuarios cargar distintos archivos mediante adjuntos.
- Tipos de archivos admitidos: se determinan por las capacidades de reconocimiento de archivos del LLM adoptado por el agente. En el caso de FlowAgent, se determina por la intersección de las capacidades de reconocimiento de archivos de todos los modelos LLM.
- Tras cargar correctamente un archivo, el LLM del agente lo reconoce y procesa directamente.
Si se selecciona "System File Recognition":
- El agente reconoce y extrae el adjunto cargado, lo convierte en un mensaje de texto y lo envía como consulta del usuario al LLM del agente.
- Tipos de archivos admitidos: actualmente se determinan por las capacidades de reconocimiento de archivos de la plataforma GPTBots.
Número de archivos adjuntos:
- El límite máximo de adjuntos del sistema es 9, con un valor predeterminado de 1.

Métodos de envío de mensajes

Modo de un solo turno: solo se puede enviar un mensaje cada vez, y el siguiente mensaje solo se puede enviar una vez completada la respuesta de IA.
Modo de conversación interrumpible: en escenarios específicos, se pueden enviar varios mensajes simultáneamente y la IA proporciona una respuesta unificada. Esto se ajusta más a los hábitos de comunicación humana, mejorando la experiencia del usuario.

Cuando se habilita la función de conversación interrumpible, varios mensajes que cumplan las siguientes tres condiciones se fusionan y se envían al LLM: AI response not completed, within 5 seconds y up to 5 messages.

Guía de salida

Control de salida

Agent Output Control

Idioma de salida del agente: en función de las capacidades lingüísticas del LLM, se puede configurar el idioma de salida del agente (el control de idioma es una orientación flexible y no puede garantizar una efectividad del 100%).
Estado de invocación de herramientas: se admite ocultar/mostrar el estado del proceso de invocación de herramientas, y se puede configurar según las necesidades del negocio.
Estado de invocación del flujo de trabajo: se admite ocultar/mostrar el estado del proceso de invocación del flujo de trabajo, y se puede configurar según las necesidades del negocio.

Voz

Voice TTS

Disable: el agente no admite salida TTS.
TTS Voice Generation: se admite personalizar la selección de servicios de modelos TTS y tonos de voz, convirtiendo los mensajes de texto en sonido para su reproducción.

Nota: La generación de voz TTS solo es aplicable a Text Messages respondidos por el agente. Otros tipos de mensajes no admiten generación de voz TTS.