การรับเข้าและส่งออก

การรับเข้าและส่งออก

GPTBots Agent รองรับการรับเข้าและส่งออกข้อความได้หลายประเภท ไม่ว่าจะเป็น ข้อความ, รูปภาพ, เสียง, วิดีโอ, เอกสาร และไฟล์ นักพัฒนาสามารถปรับแต่งประเภทข้อความที่สามารถส่งเข้า input ให้กับ Agent ได้ตามความต้องการทางธุรกิจ พร้อมกำหนดวิธีการส่ง (แบบครั้งเดียว หรือแบบสนทนาแบบขัดจังหวะ) ใน output นักพัฒนาสามารถปรับแต่งภาษา ประเภทข้อความ โทนเสียง TTS และสถานะการเรียกใช้เครื่องมือที่ Agent ตอบกลับผู้ใช้ เพื่อยกระดับประสบการณ์และประสิทธิภาพการโต้ตอบ

ประเภทข้อความ

ประเภทข้อความ ที่แพลตฟอร์ม GPTBots รองรับมีทั้งหมด 6 ประเภท ได้แก่ ข้อความ, รูปภาพ, เสียง, วิดีโอ, เอกสาร และไฟล์ โดย ประเภทข้อความ นี้ทำหน้าที่เป็นโปรโตคอลสื่อสารระหว่าง Agent กับผู้ใช้ ช่วยให้โต้ตอบกับ Agent ได้สะดวก ประเภทข้อความที่ Agent รับเข้าได้ขึ้นอยู่กับการตั้งค่าฟีเจอร์ "Input-Attachment" ส่วนประเภทข้อความที่ Agent ส่งออกได้ขึ้นอยู่กับความสามารถของ LLM ที่ Agent ใช้งาน

ประเภทข้อความ รูปแบบข้อความ ขนาดสูงสุด
ข้อความ ค่าเริ่มต้นเป็น string ต้องรองรับเสมอ ตามจำนวน context tokens ของ LLM
รูปภาพ .jpg, .jpeg, .png, .gif, .webp ฯลฯ ≤ 10 MB
เสียง .wav, .mp3 ฯลฯ ≤ 25 MB
วิดีโอ .mp4 ฯลฯ ≤ 50 MB
เอกสาร .pdf, .txt, .docx, .xls, .csv, .html, .json, .md ฯลฯ ≤ 25 MB
ไฟล์ ค่าเริ่มต้นเป็น .zip, URL ของไฟล์จะถูกแทรกในข้อความ ≤ 25 MB

หมายเหตุ: การรองรับรูปแบบไฟล์ของข้อความประเภท รูปภาพ, เสียง, วิดีโอ และเอกสาร จะแตกต่างกันตามการเลือก "System Recognition" และ "LLM Recognition"

  • หลังจากอัปโหลดไฟล์แนบแล้ว ผังขั้นตอนการรู้จำไฟล์ของ Agent เป็นดังนี้:
loading...
flowchart TD
    A[ข้อความที่ผู้ใช้ป้อน] --> B{เลือกประเภทข้อความที่รองรับ}
    B --> |ข้อความ| C[ประมวลผลข้อความ]
    B --> |รูปภาพ| D[ประมวลผลรูปภาพ]
    B --> |เสียง| E[ประมวลผลเสียง]
    B --> |วิดีโอ| F[ประมวลผลวิดีโอ]
    B --> |เอกสาร| G[ประมวลผลเอกสาร]
    B --> |ไฟล์| H[ประมวลผลไฟล์]
    C & D & E & F & G & H --> I[ส่งต่อแบบรวมไปยัง Agent]
    I --> J{วิธีการรู้จำไฟล์}
    J --> K[LLM File Recognition]
    J --> L[System File Recognition]
  • หลังจากผู้ใช้ส่งข้อความ ผังขั้นตอนการตอบสนองของ Agent ต่อแต่ละประเภทข้อความเป็นดังนี้:
loading...
flowchart TD
    A[คำขอของผู้ใช้] --> B[Agent ประมวลผล]
    B --> C{ประเภทข้อความที่ส่งออก}
    C --> D1[ข้อความ]
    D1 -- ต้องการ TTS หรือไม่? --> E{สร้างเสียง TTS หรือไม่?}
    E -- ไม่ --> F1[แสดงข้อความโดยตรง]
    E -- ใช่ --> F2[เรียกใช้บริการ TTS]
    F2 --> G1[ส่งออกเป็นเสียง]
    C --> D2[เสียง]
    D2 --> G2[ส่งออกเสียงโดยตรง]
    C --> D3[รูปภาพ]
    D3 --> G3[ส่งออกรูปภาพโดยตรง]

คู่มือการรับเข้า

เสียง

ข้อความเสียง
GPTBots รองรับการรับเข้าเสียง โดยผู้ใช้สามารถเลือกใช้ไมโครโฟนหรืออัปโหลดไฟล์เสียงเพื่อป้อนเสียงได้ ระหว่างการรับเข้าเสียง นักพัฒนาสามารถเลือก 3 ตัวเลือกดังนี้:

  • เมื่อเลือก "ปิดใช้งาน" ปุ่ม บันทึกเสียง ในกล่องรับข้อความของ Agent จะถูกซ่อนไว้ ผู้ใช้จะไม่สามารถป้อนเสียงได้
  • เมื่อเลือก "แปลงเสียงเป็นข้อความ" ปุ่ม บันทึกเสียง จะปรากฏในกล่องรับข้อความของ Agent ผู้ใช้สามารถบันทึกเสียงและระบบจะใช้โมเดล ASR แปลงเสียงเป็นข้อความ
  • เมื่อเลือก "ส่งข้อความเสียง" ปุ่ม บันทึกเสียง จะปรากฏในกล่องรับข้อความของ Agent ผู้ใช้สามารถบันทึกเสียงและส่งไฟล์เสียงไปยัง LLM ใน Agent เพื่อประมวลผลและรู้จำโดยตรง

    หมายเหตุ: ตัวเลือก "ส่งข้อความเสียง" จะมีให้เลือกหรือไม่ ขึ้นอยู่กับความสามารถในการรู้จำไฟล์ของ LLM ใน Agent สำหรับ FlowAgent จะขึ้นกับความสามารถร่วมกันของ LLM ทุกรุ่นที่ใช้งาน

ไฟล์แนบ

Agent Attachments
ฟีเจอร์ไฟล์แนบของ GPTBots ช่วยให้ผู้ใช้เลือก แผนการรู้จำไฟล์แนบ และปรับแต่ง ประเภทข้อความ ที่ต้องการรองรับ เพื่อตอบโจทย์แต่ละสถานการณ์ธุรกิจ โดยไฟล์แนบรองรับ 3 แผน ได้แก่ "ปิดใช้งาน", "LLM File Recognition" และ "System File Recognition"

  • เมื่อเลือก "ปิดใช้งาน":
    • ปุ่ม อัปโหลดไฟล์แนบ ในกล่องรับข้อความของ Agent จะถูกซ่อนไว้ ผู้ใช้จะไม่สามารถอัปโหลดไฟล์แนบได้
  • เมื่อเลือก "LLM File Recognition":
    • ปุ่ม อัปโหลดไฟล์แนบ จะปรากฏในกล่องรับข้อความของ Agent ผู้ใช้สามารถอัปโหลดไฟล์แนบได้
    • ประเภทไฟล์ที่รองรับ: ขึ้นอยู่กับความสามารถในการรู้จำไฟล์ของ LLM ที่ Agent ใช้งาน สำหรับ FlowAgent จะขึ้นกับความสามารถร่วมกันของ LLM ทุกรุ่น
    • เมื่ออัปโหลดไฟล์สำเร็จ LLM ใน Agent จะรู้จำและประมวลผลไฟล์โดยตรง
  • เมื่อเลือก "System File Recognition":
    • Agent จะรู้จำและดึงข้อมูลจากไฟล์แนบที่อัปโหลด แปลงเป็นข้อความ และส่งเป็นคำถามของผู้ใช้ไปยัง LLM ใน Agent
    • ประเภทไฟล์ที่รองรับ: ปัจจุบันขึ้นอยู่กับความสามารถของแพลตฟอร์ม GPTBots
  • จำนวนไฟล์แนบ:
    • ระบบรองรับไฟล์แนบสูงสุด 9 ไฟล์ ค่าเริ่มต้น 1 ไฟล์

วิธีการส่งข้อความ

  • โหมดครั้งเดียว (Single-Turn Mode): สามารถส่งข้อความได้ครั้งละ 1 ข้อความ และจะส่งข้อความถัดไปได้หลังจาก AI ตอบกลับเสร็จสิ้น
  • โหมดสนทนาแบบขัดจังหวะ (Interruptible Conversation Mode): ในบางกรณีสามารถส่งข้อความพร้อมกันหลายข้อความได้ และ AI จะตอบกลับแบบรวม เหมาะกับพฤติกรรมการสื่อสารของมนุษย์ เพิ่มประสบการณ์การใช้งาน

    เมื่อเปิดใช้งานฟีเจอร์สนทนาแบบขัดจังหวะ ข้อความหลายรายการที่ตรงตาม 3 เงื่อนไขนี้จะถูกส่งรวมไปยัง LLM: AI ยังตอบไม่เสร็จ, ภายใน 5 วินาที และ สูงสุด 5 ข้อความ

คู่มือการส่งออก

การควบคุมการส่งออก

Agent Output Control

  • ภาษาส่งออกของ Agent: สามารถตั้งค่าภาษาส่งออกของ Agent ได้ตามความสามารถของ LLM (การควบคุมภาษาเป็นเพียงแนวทาง ไม่สามารถรับประกันผล 100%)
  • สถานะการเรียกใช้เครื่องมือ: รองรับการซ่อน/แสดงสถานะการดำเนินการของการเรียกใช้เครื่องมือ สามารถตั้งค่าได้ตามความต้องการธุรกิจ
  • สถานะการเรียกใช้ Workflow: รองรับการซ่อน/แสดงสถานะการดำเนินการของ Workflow สามารถตั้งค่าได้ตามความต้องการธุรกิจ

เสียง

Voice TTS

  • ปิดใช้งาน: Agent จะไม่รองรับการส่งออกเสียง TTS
  • สร้างเสียง TTS: รองรับการเลือกบริการโมเดล TTS และโทนเสียงที่ต้องการ แปลงข้อความเป็นเสียงเพื่อเล่นให้ผู้ใช้ฟัง

    หมายเหตุ: การสร้างเสียง TTS ใช้ได้กับ ข้อความ ที่ Agent ตอบกลับเท่านั้น ประเภทข้อความอื่นไม่รองรับการสร้างเสียง TTS