Entrée et Sortie

L'Agent GPTBots prend en charge plusieurs types de messages en entrée et en sortie, y compris texte, images, audio, vidéo, documents et fichiers. Les développeurs peuvent personnaliser les types de messages pouvant être soumis à l'Agent en entrée selon les besoins métier et définir la méthode de soumission (conversation à tour unique ou conversation interruptible). En sortie, les développeurs peuvent personnaliser la langue, le type de message, le ton de voix TTS et le statut d'invocation d'outil retournés par l'Agent aux utilisateurs, améliorant ainsi l'expérience utilisateur et l'efficacité des interactions.

Types de Messages

Les types de messages pris en charge par la plateforme GPTBots sont définis en six catégories : texte, images, audio, vidéo, documents et fichiers. Les types de messages servent de protocole de communication entre l'Agent et les utilisateurs, facilitant l'interaction avec l'Agent. Les types de messages que l'Agent peut recevoir en entrée dépendent de la configuration de la fonctionnalité "Pièce jointe en entrée". Les types de messages que l'Agent peut produire en sortie dépendent des capacités du LLM adopté par l'Agent.

Type de message	Format de message	Limite de taille
Message texte	Par défaut, type chaîne, prise en charge obligatoire par défaut	Selon la longueur des tokens de contexte du LLM
Message image	.jpg, .jpeg, .png, .gif, .webp, etc.	≤ 10 Mo
Message audio	.wav, .mp3, etc.	≤ 25 Mo
Message vidéo	.mp4, etc.	≤ 50 Mo
Message document	.pdf, .txt, .docx, .xls, .csv, .html, .json, .md, etc.	≤ 25 Mo
Message fichier	Par défaut, type .zip, l'URL du fichier sera placée de force dans le Message texte	≤ 25 Mo

Remarque : La prise en charge des formats pour les messages Image, Audio, Vidéo et Document varie selon le choix de "Reconnaissance Système" et "Reconnaissance LLM".

Après le téléchargement d'une pièce jointe, le schéma du processus métier pour la reconnaissance de fichier dans l'Agent est le suivant :

flowchart TD
    A[Message d'entrée utilisateur] --> B{Sélectionner le type de message pris en charge}
    B --> |Texte| C[Traitement du texte]
    B --> |Image| D[Traitement de l'image]
    B --> |Audio| E[Traitement de l'audio]
    B --> |Vidéo| F[Traitement de la vidéo]
    B --> |Document| G[Traitement du document]
    B --> |Fichier| H[Traitement du fichier]
    C & D & E & F & G & H --> I[Transmission unifiée à l'Agent]
    I --> J{Méthode de reconnaissance de fichier}
    J --> K[Reconnaissance de fichier LLM]
    J --> L[Reconnaissance de fichier Système]

Après la soumission du message utilisateur, le schéma du processus métier pour la réponse de l'Agent selon les différents types de messages est le suivant :

flowchart TD
    A[Demande utilisateur] --> B[Traitement par l'Agent]
    B --> C{Type de message en sortie}
    C --> D1[Message texte]
    D1 -- Besoin TTS ? --> E[Génération de voix TTS ?]
    E -- Non --> F1[Sortie directe du texte]
    E -- Oui --> F2[Appeler le service TTS]
    F2 --> G1[Sortie message audio]
    C --> D2[Message audio]
    D2 --> G2[Sortie directe de l'audio]
    C --> D3[Message image]
    D3 --> G3[Sortie directe de l'image]

Guide d'Entrée

Voix

texte alternatif
GPTBots prend en charge l'entrée vocale, permettant aux utilisateurs de choisir entre l'utilisation d'un microphone ou le téléchargement d'un fichier audio pour l'entrée vocale. Lors de l'entrée vocale, les développeurs peuvent sélectionner les trois options suivantes :

Lorsque "Désactiver" est sélectionné, le bouton Enregistrement vocal dans la boîte de saisie de l'Agent sera masqué, interdisant aux utilisateurs de saisir par la voix.
Lorsque "Reconnaissance vocale" est sélectionné, le bouton Enregistrement vocal s'affichera dans la boîte de saisie de l'Agent, permettant la saisie vocale. Le modèle ASR sera utilisé pour convertir la voix en message texte.
Lorsque "Soumettre un message audio" est sélectionné, le bouton Enregistrement vocal s'affichera dans la boîte de saisie de l'Agent, permettant la saisie vocale. Le fichier audio sera soumis au LLM de l'Agent pour reconnaissance et traitement directs.

Remarque : La disponibilité de l'option "Soumettre un message audio" dépend des capacités de reconnaissance de fichiers du LLM de l'Agent. Pour Agent des flux, elle est déterminée par l'intersection des capacités de reconnaissance de fichiers de tous les modèles LLM.

Pièces jointes

Pièces jointes Agent
La fonctionnalité de pièces jointes de GPTBots permet aux utilisateurs de sélectionner des schémas de reconnaissance de pièces jointes et de personnaliser les types de messages à prendre en charge, répondant ainsi aux besoins de différents scénarios métier. Les pièces jointes prennent en charge trois schémas : "Désactiver", "Reconnaissance de fichier LLM" et "Reconnaissance de fichier Système".

Lorsque "Désactiver" est sélectionné :
- Le bouton Télécharger une pièce jointe dans la boîte de saisie de l'Agent sera masqué, interdisant aux utilisateurs de télécharger des fichiers via des pièces jointes.
Lorsque "Reconnaissance de fichier LLM" est sélectionné :
- Le bouton Télécharger une pièce jointe s'affichera dans la boîte de saisie de l'Agent, permettant le téléchargement de divers fichiers via des pièces jointes.
- Types de fichiers pris en charge : Déterminés par les capacités de reconnaissance de fichiers du LLM adopté par l'Agent. Pour Agent des flux, cela dépend de l'intersection des capacités de reconnaissance de fichiers de tous les modèles LLM.
- Après téléchargement réussi, le fichier sera directement reconnu et traité par le LLM de l'Agent.
Lorsque "Reconnaissance de fichier Système" est sélectionné :
- L'Agent reconnaîtra et extraira la pièce jointe téléchargée, la convertira en message texte et la soumettra comme requête utilisateur au LLM de l'Agent.
- Types de fichiers pris en charge : Actuellement déterminés par les capacités de reconnaissance de fichiers de la plateforme GPTBots.
Nombre de pièces jointes :
- La limite maximale de pièces jointes du système est de 9, avec une valeur par défaut de 1.

Méthodes de soumission de message

Mode à tour unique : Un seul message peut être soumis à la fois, et le message suivant ne peut être soumis qu'après la réponse de l'IA.
Mode conversation interruptible : Dans certains scénarios, plusieurs messages peuvent être soumis simultanément et l'IA fournira une réponse unifiée. Cela correspond davantage aux habitudes de communication humaine, améliorant l'expérience utilisateur.

Lorsque la fonctionnalité de conversation interruptible est activée, plusieurs messages répondant aux trois conditions suivantes seront fusionnés et soumis au LLM : Réponse IA non terminée, dans les 5 secondes, et jusqu'à 5 messages.

Guide de Sortie

Contrôle de la sortie

Contrôle de la sortie Agent

Langue de sortie de l'Agent : Selon les capacités linguistiques du LLM, la langue de sortie de l'Agent peut être définie (le contrôle de langue est une indication souple et ne garantit pas une efficacité à 100 %).
Statut d'invocation d'outil : Prend en charge l'affichage ou le masquage du statut du processus d'invocation d'outil, paramétrable selon les besoins métier.
Statut d'invocation de workflow : Prend en charge l'affichage ou le masquage du statut du processus d'invocation de workflow, paramétrable selon les besoins métier.

Voix

Voix TTS

Désactiver : L'Agent ne prend pas en charge la sortie TTS.
Génération de voix TTS : Permet de personnaliser la sélection des services de modèle TTS et des tons de voix, convertissant les messages texte en son pour lecture.

Remarque : La génération de voix TTS s'applique uniquement aux Messages texte répondus par l'Agent. Les autres types de messages ne prennent pas en charge la génération de voix TTS.