輸入與輸出

GPTBots 智能代理支援多種輸入與輸出訊息格式，包括文字、圖片、音訊、影片、文件與檔案。您可以根據業務需求自訂可提交的訊息類型，並定義提交方式（單輪或可中斷對話）。在輸出方面，您也能自訂智能代理回應的語言、訊息類型、文字轉語音（TTS）語調，以及工具調用狀態，全面提升用戶體驗與互動效率。

訊息格式

GPTBots 平台支援六種訊息格式：文字、圖片、音訊、影片、文件與檔案。這些訊息格式是智能代理與用戶溝通的協議，促進雙方互動。可輸入的訊息格式取決於「輸入附件」功能設定；可輸出的訊息格式則取決於智能代理採用的 LLM（大型語言模型）能力。

訊息格式	格式說明	大小限制
文字訊息	預設為文字串類型，必須支援	依 LLM 上下文 token 長度
圖片訊息	.jpg, .jpeg, .png, .gif, .webp 等	≤ 10 MB
音訊訊息	.wav, .mp3 等	≤ 25 MB
影片訊息	.mp4 等	≤ 50 MB
文件訊息	.pdf, .txt, .docx, .xls, .csv, .html, .json, .md 等	≤ 25 MB
檔案訊息	預設為 .zip 類型，檔案 URL 會強制放入文字訊息	≤ 25 MB

備註：圖片、音訊、影片與文件訊息的格式支援，會依「系統識別」或「LLM 識別」方案而異。

上傳附件後，智能代理的檔案識別流程圖如下：

flowchart TD
    A[用戶輸入訊息] --> B{選擇支援的訊息格式}
    B --> |文字| C[文字處理]
    B --> |圖片| D[圖片處理]
    B --> |音訊| E[音訊處理]
    B --> |影片| F[影片處理]
    B --> |文件| G[文件處理]
    B --> |檔案| H[檔案處理]
    C & D & E & F & G & H --> I[統一傳輸至智能代理]
    I --> J{檔案識別方式}
    J --> K[LLM 檔案識別]
    J --> L[系統檔案識別]

用戶訊息提交後，智能代理針對不同訊息格式的回應流程圖如下：

flowchart TD
    A[用戶請求] --> B[智能代理處理]
    B --> C{輸出訊息格式}
    C --> D1[文字訊息]
    D1 -- 需要 TTS？ --> E{文字轉語音生成？}
    E -- 否 --> F1[直接輸出文字]
    E -- 是 --> F2[調用 TTS 服務]
    F2 --> G1[輸出音訊訊息]
    C --> D2[音訊訊息]
    D2 --> G2[直接輸出音訊]
    C --> D3[圖片訊息]
    D3 --> G3[直接輸出圖片]

輸入指南

語音

語音輸入功能示意圖
GPTBots 支援語音輸入，您可以選擇使用麥克風或上傳音訊檔案。在語音輸入時，您有以下三種選項：

選擇「停用」時，輸入框中的 語音錄製 按鈕將隱藏，無法進行語音輸入。
選擇「語音轉文字」時，輸入框會顯示 語音錄製 按鈕，可直接錄音並由 ASR 模型轉為文字訊息。
選擇「提交音訊訊息」時，輸入框會顯示 語音錄製 按鈕，錄音後音訊檔案將直接提交給智能代理中的 LLM 處理。

備註：「提交音訊訊息」功能是否可用，取決於智能代理所用 LLM 的檔案識別能力。FlowAgent 則以所有 LLM 模型的檔案識別能力交集為準。

附件

附件上傳功能示意圖
GPTBots 的附件功能可讓您選擇 附件識別方案，並自訂需支援的 訊息格式，滿足各種業務場景需求。附件支援三種方案：「停用」、「LLM 檔案識別」與「系統檔案識別」。

選擇「停用」時：
- 輸入框中的 附件上傳 按鈕會隱藏，無法上傳檔案。
選擇「LLM 檔案識別」時：
- 輸入框會顯示 附件上傳 按鈕，可上傳各類檔案。
- 支援檔案類型：依智能代理採用的 LLM 檔案識別能力決定。FlowAgent 則以所有 LLM 模型的檔案識別能力交集為準。
- 檔案上傳成功後，會直接由 LLM 處理與識別。
選擇「系統檔案識別」時：
- 智能代理會識別並擷取附件內容，轉為文字訊息後提交給 LLM。
- 支援檔案類型：依 GPTBots 平台目前的檔案識別能力決定。
附件數量限制：
- 系統最多可上傳 9 個附件，預設為 1 個。

訊息提交方式

單輪模式：一次僅能提交一則訊息，需等 AI 回應完成後才能提交下一則。
可中斷對話模式：特定場景下，您可同時提交多則訊息，AI 會統一回應。此模式更貼近人類交流習慣，提升用戶體驗。

啟用可中斷對話時，滿足「AI 回應未完成」、「5 秒內」、「最多 5 則」這三條件的訊息會合併提交給 LLM。

輸出指南

輸出控制

輸出控制功能示意圖

智能代理輸出語言：可根據 LLM 語言能力設定輸出語言（語言控制為軟性指引，無法保證 100% 有效）。
工具調用狀態：可選擇隱藏或顯示工具調用過程，依業務需求設定。
工作流調用狀態：可選擇隱藏或顯示工作流調用過程，依業務需求設定。

語音

文字轉語音（TTS）功能示意圖

停用：智能代理不支援文字轉語音（TTS）輸出。
文字轉語音生成：可自訂 TTS 模型服務與語音語調，將文字訊息轉為語音播放。

備註：文字轉語音僅適用於智能代理回應的「文字訊息」，其他訊息格式不支援 TTS。