入力と出力
GPTBotsエージェントは、テキストや画像、音声、動画、ドキュメント、ファイルなど、多様な入力と出力メッセージの形式を対応しています。開発者は、ビジネスニーズに基づいてエージェントへの投稿可能なメッセージタイプを入力として設定し、ユーザーとの会話が一回のやり取りで終わるか、複数回のやり取りを許容するかを定義します。出力では、開発者はエージェントがユーザーに返す言語、メッセージのタイプ、テキストから音声変換(TTS)の音色、ツールの起動状態をカスタマイズできます。これにより、ユーザーエクスペリエンスとインタラクション効率が向上します。
メッセージタイプ
GPTBotsプラットフォームで対応しているメッセージタイプ
は、テキスト、画像、音声、動画、ドキュメント、ファイルの6つです。メッセージタイプ
はエージェントとユーザーとのコミュニケーション制約として働き、エージェントとの相互作用をスムーズにします。エージェントが入力として受け取れるメッセージタイプは、「入力−添付ファイル」の設定次第です。エージェントが出力できるメッセージタイプは、採用しているLLMの能力によります。
メッセージタイプ | メッセージフォーマット | サイズ制限 |
---|---|---|
テキストメッセージ | デフォルトは文字列形式で、必ず対応している | LLMのcontext tokensの長さに依存 |
画像メッセージ | .jpg, .jpeg, .png, .gif, .webpなど | ≤ 10 MB |
音声メッセージ | .wav, .mp3など | ≤ 25 MB |
動画メッセージ | .mp4など | ≤ 50 MB |
ドキュメントメッセージ | .pdf, .txt, .docx, .xls, .csv, .html, .json, .mdなど | ≤ 25 MB |
ファイルメッセージ | デフォルトは.zip形式で、ファイルのURLは強制的にテキストメッセージに設定されます | ≤ 25 MB |
注: 画像、音声、動画、ドキュメントメッセージの対応形式は、「システム認識」と「LLM認識」の設定によって変わります。
- ファイルアップロード後、エージェント内でのファイル認識についての処理フローは以下の通りです:
flowchart TD A[ユーザーからのメッセージ入力] --> B{サポートされるメッセージタイプの選択} B --> |テキスト| C[テキスト処理] B --> |画像| D[画像処理] B --> |音声| E[音声処理] B --> |動画| F[動画処理] B --> |ドキュメント| G[ドキュメント処理] B --> |ファイル| H[ファイル処理] C & D & E & F & G & H --> I[エージェントへの一元化送信] I --> J{ファイル認識方法} J --> K[LLMによるファイル認識] J --> L[システムによるファイル認識]
- ユーザーからのメッセージ送信後、エージェントが異なるメッセージタイプに対する応答の処理フローは以下の通りです:
flowchart TD A[ユーザーリクエスト] --> B[エージェント処理] B --> C{出力メッセージの種類} C --> D1[テキストメッセージ] D1 -- 音声合成が必要? --> E{TTS(音声合成)を使用?} E -- いいえ --> F1[テキストをそのまま出力] E -- はい --> F2[TTSサービスを呼び出し] F2 --> G1[音声メッセージを出力] C --> D2[音声メッセージ] D2 --> G2[音声メッセージを直接出力] C --> D3[画像メッセージ] D3 --> G3[画像を直接出力]
入力のガイド
音声
GPTBotsは音声入力に対応しており、マイクによる入力や音声ファイルのアップロードが可能です。音声入力の設定では、開発者は以下の三つのオプションを選択できます:
- 「無効化」を選ぶと、エージェントの入力ボックス内の音声録音
ボタンが非表示になり、ユーザーは音声入力ができなくなります。 - 「音声-テキスト変換」を選ぶと、音声録音ボタンがエージェントの入力ボックスに表示され、ユーザーは音声で入力することができます。自動音声認識(ASR)モデルが音声をテキストメッセージに変換します。
- 「音声メッセージの送信」を選ぶと、音声録音ボタンがエージェントの入力ボックスに表示され、ユーザーは音声で入力することができます。音声ファイルはエージェントのLLMに直接送られ、認識・処理されます。
注: 「音声メッセージの送信」の利用可能性は、エージェントのLLMのファイル認識能力に依存します。FlowAgentについては、すべてのLLMモデルが認識できるファイルタイプの共通部分が決定要素となります。
ファイル添付
GPTBotsのファイル添付機能は、ユーザーが添付ファイル認識スキームを選択し、対応が必要なメッセージタイプを調整することができます。これにより、様々なビジネスシナリオのニーズに対応します。ファイル添付では、「無効化」、「LLMによるファイル認識」、「システムによるファイル認識」の三つのスキームを提供します。
- 「無効化」を選んだ場合:
- エージェントの入力ボックス内のファイルアップロードボタンが非表示になり、ユーザーはどんなファイルもアップロードできなくなります。
- 「LLMによるファイル認識」を選んだ場合:
- ファイルアップロードボタンがエージェントの入力ボックスに表示され、ユーザーはファイルをアップロードすることができます。
- 対応可能なファイルタイプ: エージェントが使用しているLLMのファイル認識能力によります。FlowAgentの場合、すべてのLLMモデルが認識できるファイルタイプの共通部分によります。
- ファイルのアップロードに成功した後、エージェント内のLLMによって直接認識・処理されます。
- 「システムによるファイル認識」を選んだ場合:
- エージェントはアップロードされたファイルを認識・解析し、テキストメッセージに変換。ユーザーの問い合わせとしてエージェントのLLMに提出します。
- 対応可能なファイルタイプ: 現在は、GPTBotsプラットフォームのファイル認識能力によります。
- 添付可能なファイル数:
- システムで設定可能な最大添付ファイル数は9で、デフォルトは1です。
メッセージの提出方法
- ステートレスモード(シングルターンモード):一度に一つのメッセージだけを提出し、次のメッセージはエージェントの応答後にのみ提出できるようになります。
- 待ち受けモード(中断可能な会話):特定のシナリオで、複数のメッセージを同時に提出し、エージェントが一つの応答を提供します。これは人間とのコミュニケーションのパターンにより密に合致し、ユーザーエクスペリエンスを向上させます。
待ち受けモードが有効になっている場合、以下の三つの条件を満たす複数のメッセージは統合され、LLMへ提出されます:
エージェントの応答が未完了
,5秒以内のメッセージ
,最大5件のメッセージ
。
出力のガイド
出力制御
- エージェントの出力言語:LLMの言語能力に基づき、エージェントの出力言語を設定できます(言語制御は参考程度のもので、100%その通りになる訳ではありません)。
- ツール起動状態:ツールの起動状態の表示・非表示をサポートし、ビジネスニーズに基づいて設定します。
- ワークフロー起動状態:ワークフローの起動状態の表示・非表示をサポートし、ビジネスニーズに基づいて設定します。
音声
- 無効化:エージェントはテキストから音声への変換(TTS)に対応していません。
- 音声合成(TTS):ソフトウェアによる音声合成(TTSモデル)と音声トーンの選択を支援し、テキストメッセージを音声に変換して再生します。
注: 音声合成はエージェントが応答した
テキストメッセージ
のみを対象とします。他のメッセージタイプは音声合成に対応していません。