Eingabe und Ausgabe

Der GPTBots-Agent unterstützt verschiedene Arten von Eingabe- und Ausgabenachrichten, darunter Text, Bilder, Audio, Video, Dokumente und Dateien. Entwickler:innen können die Nachrichtentypen, die im Input an den Agenten übermittelt werden dürfen, flexibel an die jeweiligen Geschäftsanforderungen anpassen und den Modus der Nachrichtenübermittlung (Einzelanfrage-Modus oder unterbrechbare Konversation) bestimmen. Im Output lassen sich Sprache, Nachrichtentyp, TTS-Stimmfarbe sowie der Status von Tool-Aufrufen individuell einstellen, um das Nutzer:innenerlebnis und die Interaktionseffizienz gezielt zu optimieren.

Nachrichtentypen

Die von der GPTBots-Plattform unterstützten Nachrichtentypen sind in sechs Kategorien unterteilt: Text, Bilder, Audio, Video, Dokumente und Dateien. Nachrichtentypen dienen als Kommunikationsprotokoll zwischen Agent und Nutzer:innen und ermöglichen eine vielseitige Interaktion mit dem Agenten. Welche Nachrichtentypen der Agent empfangen kann, wird durch die Konfiguration der Funktion „Input-Anhang“ festgelegt. Die ausgehenden Nachrichtentypen richten sich nach den Fähigkeiten des eingesetzten LLM.

Nachrichtentyp	Nachrichtenformat	Größenbeschränkung
Textnachricht	Standardmäßig vom Typ String, obligatorisch unterstützt	Abhängig von der Token-Anzahl des LLM-Kontexts
Bildnachricht	.jpg, .jpeg, .png, .gif, .webp usw.	≤ 10 MB
Audionachricht	.wav, .mp3 usw.	≤ 25 MB
Videonachricht	.mp4 usw.	≤ 50 MB
Dokumentnachricht	.pdf, .txt, .docx, .xls, .csv, .html, .json, .md usw.	≤ 25 MB
Dateinachricht	Standardmäßig .zip, Datei-URL wird in Textnachricht eingefügt	≤ 25 MB

Hinweis: Die unterstützten Formate für Bild-, Audio-, Video- und Dokumentnachrichten variieren je nach Auswahl von „Systemerkennung“ und „LLM-Erkennung“.

Nach dem Hochladen eines Anhangs stellt sich das Geschäftsprozessdiagramm für die Dateierkennung im Agenten wie folgt dar:

flowchart TD
    A[Nutzer:inneneingabe] --> B{Unterstützten Nachrichtentyp wählen}
    B --> |Text| C[Textverarbeitung]
    B --> |Bild| D[Bildverarbeitung]
    B --> |Audio| E[Audiobearbeitung]
    B --> |Video| F[Videobearbeitung]
    B --> |Dokument| G[Dokumentenverarbeitung]
    B --> |Datei| H[Dateiverarbeitung]
    C & D & E & F & G & H --> I[Einheitliche Übertragung an Agent]
    I --> J{Dateierkennungsmethode}
    J --> K[LLM-Dateierkennung]
    J --> L[System-Dateierkennung]

Nach dem Absenden einer Nachricht durch Nutzer:innen stellt sich das Prozessdiagramm für die Antwort des Agenten auf verschiedene Nachrichtentypen wie folgt dar:

flowchart TD
    A[Nutzer:innenanfrage] --> B[Agentenverarbeitung]
    B --> C{Ausgabe-Nachrichtentyp}
    C --> D1[Textnachricht]
    D1 -- TTS benötigt? --> E{TTS-Stimmgenerierung?}
    E -- Nein --> F1[Direkte Textausgabe]
    E -- Ja --> F2[TTS-Service aufrufen]
    F2 --> G1[Audioausgabe]
    C --> D2[Audionachricht]
    D2 --> G2[Direkte Audioausgabe]
    C --> D3[Bildnachricht]
    D3 --> G3[Direkte Bildausgabe]

Anleitung zur Eingabe

Spracheingabe

Spracheingabe in GPTBots
GPTBots unterstützt Spracheingabe. Nutzer:innen können entweder ein Mikrofon verwenden oder eine Audiodatei hochladen. Während der Spracheingabe stehen drei Optionen zur Auswahl:

Bei Auswahl von „Deaktivieren“ wird die Sprachaufnahme-Schaltfläche im Eingabefeld des Agenten ausgeblendet, sodass keine Spracheingabe möglich ist.
Bei Auswahl von „Sprache-zu-Text“ wird die Sprachaufnahme-Schaltfläche angezeigt. Nutzer:innen können per Sprachaufnahme eingeben, die dann vom ASR-Modell in eine Textnachricht umgewandelt wird.
Bei Auswahl von „Audio-Nachricht übermitteln“ wird die Sprachaufnahme-Schaltfläche ebenfalls angezeigt. Nutzer:innen können per Sprachaufnahme eine Audiodatei erstellen, die direkt an das LLM im Agenten zur Erkennung und Verarbeitung gesendet wird.

Hinweis: Die Option „Audio-Nachricht übermitteln“ ist abhängig von den Dateierkennungsfähigkeiten des LLM im Agenten. Bei Flow-Agenten ergibt sich dies aus der Schnittmenge der Dateierkennungsfähigkeiten aller verwendeten LLM-Modelle.

Anhänge

Anhänge in GPTBots
Die Anhangsfunktion von GPTBots ermöglicht Nutzer:innen die Auswahl von Erkennungsschemata für Anhänge und die individuelle Anpassung der unterstützten Nachrichtentypen, um unterschiedliche Geschäftsszenarien optimal abzudecken. Anhänge unterstützen drei Schemata: „Deaktivieren“, „LLM-Dateierkennung“ und „System-Dateierkennung“.

Bei Auswahl von „Deaktivieren“:
- Die Anhang hochladen-Schaltfläche wird im Eingabefeld ausgeblendet, sodass keine Dateien hochgeladen werden können.
Bei Auswahl von „LLM-Dateierkennung“:
- Die Anhang hochladen-Schaltfläche wird angezeigt, sodass Nutzer:innen verschiedene Dateien hochladen können.
- Unterstützte Dateitypen: Bestimmt durch die Dateierkennungsfähigkeiten des jeweils eingesetzten LLM. Bei Flow-Agenten ergibt sich dies aus der Schnittmenge der Fähigkeiten aller LLM-Modelle.
- Nach erfolgreichem Upload wird die Datei direkt vom LLM im Agenten erkannt und verarbeitet.
Bei Auswahl von „System-Dateierkennung“:
- Der Agent erkennt und extrahiert den hochgeladenen Anhang, wandelt ihn in eine Textnachricht um und übermittelt diese als Nutzer:innenanfrage an das LLM im Agenten.
- Unterstützte Dateitypen: Derzeit durch die Dateierkennungsfähigkeiten der GPTBots-Plattform bestimmt.
Anzahl der Anhänge:
- Das System erlaubt maximal 9 Anhänge; der Standardwert beträgt 1.

Methoden der Nachrichtenübermittlung

Einzelanfrage-Modus: Es kann jeweils nur eine Nachricht übermittelt werden; die nächste Nachricht kann erst nach Abschluss der KI-Antwort gesendet werden.
Unterbrechbare Konversation: In bestimmten Szenarien können mehrere Nachrichten gleichzeitig übermittelt werden, und die KI gibt eine zusammengefasste Antwort. Dies entspricht eher menschlichen Kommunikationsgewohnheiten und verbessert das Nutzer:innenerlebnis.

Ist die Funktion für unterbrechbare Konversation aktiviert, werden mehrere Nachrichten, die folgende drei Bedingungen erfüllen, zusammengefasst und an das LLM übermittelt: KI-Antwort noch nicht abgeschlossen, innerhalb von 5 Sekunden und maximal 5 Nachrichten.

Anleitung zur Ausgabe

Ausgabesteuerung

Ausgabesteuerung in GPTBots

Ausgabesprache des Agenten: Je nach Sprachfähigkeit des LLM kann die Ausgabesprache des Agenten eingestellt werden (die Sprachsteuerung ist eine Soft-Guideline und kann nicht zu 100 % garantiert werden).
Status von Tool-Aufrufen: Es kann eingestellt werden, ob der Prozessstatus von Tool-Aufrufen angezeigt oder ausgeblendet wird.
Status von Workflow-Aufrufen: Es kann eingestellt werden, ob der Prozessstatus von Workflow-Aufrufen angezeigt oder ausgeblendet wird.

Sprachausgabe

Sprachausgabe (TTS) in GPTBots

Deaktivieren: Der Agent unterstützt keine TTS-Ausgabe.
TTS-Stimmgenerierung: Es kann individuell ausgewählt werden, welcher TTS-Service und welche Stimmfarbe genutzt werden, um Textnachrichten in Audio umzuwandeln und abzuspielen.

Hinweis: Die TTS-Stimmgenerierung ist nur für vom Agenten beantwortete Textnachrichten verfügbar. Andere Nachrichtentypen unterstützen keine TTS-Ausgabe.