logo
開發者文件
搜尋
輸入與輸出

輸入與輸出

GPTBots 智能代理支援多種輸入與輸出訊息格式,包括文字、圖片、音訊、影片、文件與檔案。您可以根據業務需求自訂可提交的訊息類型,並定義提交方式(單輪或可中斷對話)。在輸出方面,您也能自訂智能代理回應的語言、訊息類型、文字轉語音(TTS)語調,以及工具調用狀態,全面提升用戶體驗與互動效率。

訊息格式

GPTBots 平台支援六種訊息格式:文字、圖片、音訊、影片、文件與檔案。這些訊息格式是智能代理與用戶溝通的協議,促進雙方互動。可輸入的訊息格式取決於「輸入附件」功能設定;可輸出的訊息格式則取決於智能代理採用的 LLM(大型語言模型)能力。

訊息格式 格式說明 大小限制
文字訊息 預設為文字串類型,必須支援 依 LLM 上下文 token 長度
圖片訊息 .jpg, .jpeg, .png, .gif, .webp 等 ≤ 10 MB
音訊訊息 .wav, .mp3 等 ≤ 25 MB
影片訊息 .mp4 等 ≤ 50 MB
文件訊息 .pdf, .txt, .docx, .xls, .csv, .html, .json, .md 等 ≤ 25 MB
檔案訊息 預設為 .zip 類型,檔案 URL 會強制放入文字訊息 ≤ 25 MB

備註:圖片、音訊、影片與文件訊息的格式支援,會依「系統識別」或「LLM 識別」方案而異。

  • 上傳附件後,智能代理的檔案識別流程圖如下:
loading...
flowchart TD
    A[用戶輸入訊息] --> B{選擇支援的訊息格式}
    B --> |文字| C[文字處理]
    B --> |圖片| D[圖片處理]
    B --> |音訊| E[音訊處理]
    B --> |影片| F[影片處理]
    B --> |文件| G[文件處理]
    B --> |檔案| H[檔案處理]
    C & D & E & F & G & H --> I[統一傳輸至智能代理]
    I --> J{檔案識別方式}
    J --> K[LLM 檔案識別]
    J --> L[系統檔案識別]
  • 用戶訊息提交後,智能代理針對不同訊息格式的回應流程圖如下:
loading...
flowchart TD
    A[用戶請求] --> B[智能代理處理]
    B --> C{輸出訊息格式}
    C --> D1[文字訊息]
    D1 -- 需要 TTS? --> E{文字轉語音生成?}
    E -- 否 --> F1[直接輸出文字]
    E -- 是 --> F2[調用 TTS 服務]
    F2 --> G1[輸出音訊訊息]
    C --> D2[音訊訊息]
    D2 --> G2[直接輸出音訊]
    C --> D3[圖片訊息]
    D3 --> G3[直接輸出圖片]

輸入指南

語音

語音輸入功能示意圖
GPTBots 支援語音輸入,您可以選擇使用麥克風或上傳音訊檔案。在語音輸入時,您有以下三種選項:

  • 選擇「停用」時,輸入框中的 語音錄製 按鈕將隱藏,無法進行語音輸入。
  • 選擇「語音轉文字」時,輸入框會顯示 語音錄製 按鈕,可直接錄音並由 ASR 模型轉為文字訊息。
  • 選擇「提交音訊訊息」時,輸入框會顯示 語音錄製 按鈕,錄音後音訊檔案將直接提交給智能代理中的 LLM 處理。

    備註:「提交音訊訊息」功能是否可用,取決於智能代理所用 LLM 的檔案識別能力。FlowAgent 則以所有 LLM 模型的檔案識別能力交集為準。

附件

附件上傳功能示意圖
GPTBots 的附件功能可讓您選擇 附件識別方案,並自訂需支援的 訊息格式,滿足各種業務場景需求。附件支援三種方案:「停用」、「LLM 檔案識別」與「系統檔案識別」。

  • 選擇「停用」時:
    • 輸入框中的 附件上傳 按鈕會隱藏,無法上傳檔案。
  • 選擇「LLM 檔案識別」時:
    • 輸入框會顯示 附件上傳 按鈕,可上傳各類檔案。
    • 支援檔案類型:依智能代理採用的 LLM 檔案識別能力決定。FlowAgent 則以所有 LLM 模型的檔案識別能力交集為準。
    • 檔案上傳成功後,會直接由 LLM 處理與識別。
  • 選擇「系統檔案識別」時:
    • 智能代理會識別並擷取附件內容,轉為文字訊息後提交給 LLM。
    • 支援檔案類型:依 GPTBots 平台目前的檔案識別能力決定。
  • 附件數量限制:
    • 系統最多可上傳 9 個附件,預設為 1 個。

訊息提交方式

  • 單輪模式:一次僅能提交一則訊息,需等 AI 回應完成後才能提交下一則。
  • 可中斷對話模式:特定場景下,您可同時提交多則訊息,AI 會統一回應。此模式更貼近人類交流習慣,提升用戶體驗。

    啟用可中斷對話時,滿足「AI 回應未完成」、「5 秒內」、「最多 5 則」這三條件的訊息會合併提交給 LLM。

輸出指南

輸出控制

輸出控制功能示意圖

  • 智能代理輸出語言:可根據 LLM 語言能力設定輸出語言(語言控制為軟性指引,無法保證 100% 有效)。
  • 工具調用狀態:可選擇隱藏或顯示工具調用過程,依業務需求設定。
  • 工作流調用狀態:可選擇隱藏或顯示工作流調用過程,依業務需求設定。

語音

文字轉語音(TTS)功能示意圖

  • 停用:智能代理不支援文字轉語音(TTS)輸出。
  • 文字轉語音生成:可自訂 TTS 模型服務與語音語調,將文字訊息轉為語音播放。

    備註:文字轉語音僅適用於智能代理回應的「文字訊息」,其他訊息格式不支援 TTS。