Eingabe und Ausgabe
Der GPTBots-Agent unterstützt verschiedene Arten von Eingabe- und Ausgabenachrichten, darunter Text, Bilder, Audio, Video, Dokumente und Dateien. Entwickler:innen können die Nachrichtentypen, die im Input an den Agenten übermittelt werden dürfen, flexibel an die jeweiligen Geschäftsanforderungen anpassen und den Modus der Nachrichtenübermittlung (Einzelanfrage-Modus oder unterbrechbare Konversation) bestimmen. Im Output lassen sich Sprache, Nachrichtentyp, TTS-Stimmfarbe sowie der Status von Tool-Aufrufen individuell einstellen, um das Nutzer:innenerlebnis und die Interaktionseffizienz gezielt zu optimieren.
Nachrichtentypen
Die von der GPTBots-Plattform unterstützten Nachrichtentypen sind in sechs Kategorien unterteilt: Text, Bilder, Audio, Video, Dokumente und Dateien. Nachrichtentypen dienen als Kommunikationsprotokoll zwischen Agent und Nutzer:innen und ermöglichen eine vielseitige Interaktion mit dem Agenten. Welche Nachrichtentypen der Agent empfangen kann, wird durch die Konfiguration der Funktion „Input-Anhang“ festgelegt. Die ausgehenden Nachrichtentypen richten sich nach den Fähigkeiten des eingesetzten LLM.
| Nachrichtentyp | Nachrichtenformat | Größenbeschränkung |
|---|---|---|
| Textnachricht | Standardmäßig vom Typ String, obligatorisch unterstützt | Abhängig von der Token-Anzahl des LLM-Kontexts |
| Bildnachricht | .jpg, .jpeg, .png, .gif, .webp usw. | ≤ 10 MB |
| Audionachricht | .wav, .mp3 usw. | ≤ 25 MB |
| Videonachricht | .mp4 usw. | ≤ 50 MB |
| Dokumentnachricht | .pdf, .txt, .docx, .xls, .csv, .html, .json, .md usw. | ≤ 25 MB |
| Dateinachricht | Standardmäßig .zip, Datei-URL wird in Textnachricht eingefügt | ≤ 25 MB |
Hinweis: Die unterstützten Formate für Bild-, Audio-, Video- und Dokumentnachrichten variieren je nach Auswahl von „Systemerkennung“ und „LLM-Erkennung“.
Nach dem Hochladen eines Anhangs stellt sich das Geschäftsprozessdiagramm für die Dateierkennung im Agenten wie folgt dar:
flowchart TD
A[Nutzer:inneneingabe] --> B{Unterstützten Nachrichtentyp wählen}
B --> |Text| C[Textverarbeitung]
B --> |Bild| D[Bildverarbeitung]
B --> |Audio| E[Audiobearbeitung]
B --> |Video| F[Videobearbeitung]
B --> |Dokument| G[Dokumentenverarbeitung]
B --> |Datei| H[Dateiverarbeitung]
C & D & E & F & G & H --> I[Einheitliche Übertragung an Agent]
I --> J{Dateierkennungsmethode}
J --> K[LLM-Dateierkennung]
J --> L[System-Dateierkennung]Nach dem Absenden einer Nachricht durch Nutzer:innen stellt sich das Prozessdiagramm für die Antwort des Agenten auf verschiedene Nachrichtentypen wie folgt dar:
flowchart TD
A[Nutzer:innenanfrage] --> B[Agentenverarbeitung]
B --> C{Ausgabe-Nachrichtentyp}
C --> D1[Textnachricht]
D1 -- TTS benötigt? --> E{TTS-Stimmgenerierung?}
E -- Nein --> F1[Direkte Textausgabe]
E -- Ja --> F2[TTS-Service aufrufen]
F2 --> G1[Audioausgabe]
C --> D2[Audionachricht]
D2 --> G2[Direkte Audioausgabe]
C --> D3[Bildnachricht]
D3 --> G3[Direkte Bildausgabe]Anleitung zur Eingabe
Spracheingabe

GPTBots unterstützt Spracheingabe. Nutzer:innen können entweder ein Mikrofon verwenden oder eine Audiodatei hochladen. Während der Spracheingabe stehen drei Optionen zur Auswahl:
- Bei Auswahl von „Deaktivieren“ wird die Sprachaufnahme-Schaltfläche im Eingabefeld des Agenten ausgeblendet, sodass keine Spracheingabe möglich ist.
- Bei Auswahl von „Sprache-zu-Text“ wird die Sprachaufnahme-Schaltfläche angezeigt. Nutzer:innen können per Sprachaufnahme eingeben, die dann vom ASR-Modell in eine Textnachricht umgewandelt wird.
- Bei Auswahl von „Audio-Nachricht übermitteln“ wird die Sprachaufnahme-Schaltfläche ebenfalls angezeigt. Nutzer:innen können per Sprachaufnahme eine Audiodatei erstellen, die direkt an das LLM im Agenten zur Erkennung und Verarbeitung gesendet wird.
Hinweis: Die Option „Audio-Nachricht übermitteln“ ist abhängig von den Dateierkennungsfähigkeiten des LLM im Agenten. Bei Flow-Agenten ergibt sich dies aus der Schnittmenge der Dateierkennungsfähigkeiten aller verwendeten LLM-Modelle.
Anhänge

Die Anhangsfunktion von GPTBots ermöglicht Nutzer:innen die Auswahl von Erkennungsschemata für Anhänge und die individuelle Anpassung der unterstützten Nachrichtentypen, um unterschiedliche Geschäftsszenarien optimal abzudecken. Anhänge unterstützen drei Schemata: „Deaktivieren“, „LLM-Dateierkennung“ und „System-Dateierkennung“.
- Bei Auswahl von „Deaktivieren“:
- Die Anhang hochladen-Schaltfläche wird im Eingabefeld ausgeblendet, sodass keine Dateien hochgeladen werden können.
- Bei Auswahl von „LLM-Dateierkennung“:
- Die Anhang hochladen-Schaltfläche wird angezeigt, sodass Nutzer:innen verschiedene Dateien hochladen können.
- Unterstützte Dateitypen: Bestimmt durch die Dateierkennungsfähigkeiten des jeweils eingesetzten LLM. Bei Flow-Agenten ergibt sich dies aus der Schnittmenge der Fähigkeiten aller LLM-Modelle.
- Nach erfolgreichem Upload wird die Datei direkt vom LLM im Agenten erkannt und verarbeitet.
- Bei Auswahl von „System-Dateierkennung“:
- Der Agent erkennt und extrahiert den hochgeladenen Anhang, wandelt ihn in eine Textnachricht um und übermittelt diese als Nutzer:innenanfrage an das LLM im Agenten.
- Unterstützte Dateitypen: Derzeit durch die Dateierkennungsfähigkeiten der GPTBots-Plattform bestimmt.
- Anzahl der Anhänge:
- Das System erlaubt maximal 9 Anhänge; der Standardwert beträgt 1.
Methoden der Nachrichtenübermittlung
- Einzelanfrage-Modus: Es kann jeweils nur eine Nachricht übermittelt werden; die nächste Nachricht kann erst nach Abschluss der KI-Antwort gesendet werden.
- Unterbrechbare Konversation: In bestimmten Szenarien können mehrere Nachrichten gleichzeitig übermittelt werden, und die KI gibt eine zusammengefasste Antwort. Dies entspricht eher menschlichen Kommunikationsgewohnheiten und verbessert das Nutzer:innenerlebnis.
Ist die Funktion für unterbrechbare Konversation aktiviert, werden mehrere Nachrichten, die folgende drei Bedingungen erfüllen, zusammengefasst und an das LLM übermittelt:
KI-Antwort noch nicht abgeschlossen,innerhalb von 5 Sekundenundmaximal 5 Nachrichten.
Anleitung zur Ausgabe
Ausgabesteuerung

- Ausgabesprache des Agenten: Je nach Sprachfähigkeit des LLM kann die Ausgabesprache des Agenten eingestellt werden (die Sprachsteuerung ist eine Soft-Guideline und kann nicht zu 100 % garantiert werden).
- Status von Tool-Aufrufen: Es kann eingestellt werden, ob der Prozessstatus von Tool-Aufrufen angezeigt oder ausgeblendet wird.
- Status von Workflow-Aufrufen: Es kann eingestellt werden, ob der Prozessstatus von Workflow-Aufrufen angezeigt oder ausgeblendet wird.
Sprachausgabe

- Deaktivieren: Der Agent unterstützt keine TTS-Ausgabe.
- TTS-Stimmgenerierung: Es kann individuell ausgewählt werden, welcher TTS-Service und welche Stimmfarbe genutzt werden, um Textnachrichten in Audio umzuwandeln und abzuspielen.
Hinweis: Die TTS-Stimmgenerierung ist nur für vom Agenten beantwortete
Textnachrichtenverfügbar. Andere Nachrichtentypen unterstützen keine TTS-Ausgabe.
