การรับเข้าและส่งออก
GPTBots Agent รองรับการรับเข้าและส่งออกข้อความได้หลายประเภท ไม่ว่าจะเป็น ข้อความ, รูปภาพ, เสียง, วิดีโอ, เอกสาร และไฟล์ นักพัฒนาสามารถปรับแต่งประเภทข้อความที่สามารถส่งเข้า input ให้กับ Agent ได้ตามความต้องการทางธุรกิจ พร้อมกำหนดวิธีการส่ง (แบบครั้งเดียว หรือแบบสนทนาแบบขัดจังหวะ) ใน output นักพัฒนาสามารถปรับแต่งภาษา ประเภทข้อความ โทนเสียง TTS และสถานะการเรียกใช้เครื่องมือที่ Agent ตอบกลับผู้ใช้ เพื่อยกระดับประสบการณ์และประสิทธิภาพการโต้ตอบ
ประเภทข้อความ
ประเภทข้อความ ที่แพลตฟอร์ม GPTBots รองรับมีทั้งหมด 6 ประเภท ได้แก่ ข้อความ, รูปภาพ, เสียง, วิดีโอ, เอกสาร และไฟล์ โดย ประเภทข้อความ นี้ทำหน้าที่เป็นโปรโตคอลสื่อสารระหว่าง Agent กับผู้ใช้ ช่วยให้โต้ตอบกับ Agent ได้สะดวก ประเภทข้อความที่ Agent รับเข้าได้ขึ้นอยู่กับการตั้งค่าฟีเจอร์ "Input-Attachment" ส่วนประเภทข้อความที่ Agent ส่งออกได้ขึ้นอยู่กับความสามารถของ LLM ที่ Agent ใช้งาน
| ประเภทข้อความ | รูปแบบข้อความ | ขนาดสูงสุด |
|---|---|---|
| ข้อความ | ค่าเริ่มต้นเป็น string ต้องรองรับเสมอ | ตามจำนวน context tokens ของ LLM |
| รูปภาพ | .jpg, .jpeg, .png, .gif, .webp ฯลฯ | ≤ 10 MB |
| เสียง | .wav, .mp3 ฯลฯ | ≤ 25 MB |
| วิดีโอ | .mp4 ฯลฯ | ≤ 50 MB |
| เอกสาร | .pdf, .txt, .docx, .xls, .csv, .html, .json, .md ฯลฯ | ≤ 25 MB |
| ไฟล์ | ค่าเริ่มต้นเป็น .zip, URL ของไฟล์จะถูกแทรกในข้อความ | ≤ 25 MB |
หมายเหตุ: การรองรับรูปแบบไฟล์ของข้อความประเภท รูปภาพ, เสียง, วิดีโอ และเอกสาร จะแตกต่างกันตามการเลือก "System Recognition" และ "LLM Recognition"
- หลังจากอัปโหลดไฟล์แนบแล้ว ผังขั้นตอนการรู้จำไฟล์ของ Agent เป็นดังนี้:
flowchart TD
A[ข้อความที่ผู้ใช้ป้อน] --> B{เลือกประเภทข้อความที่รองรับ}
B --> |ข้อความ| C[ประมวลผลข้อความ]
B --> |รูปภาพ| D[ประมวลผลรูปภาพ]
B --> |เสียง| E[ประมวลผลเสียง]
B --> |วิดีโอ| F[ประมวลผลวิดีโอ]
B --> |เอกสาร| G[ประมวลผลเอกสาร]
B --> |ไฟล์| H[ประมวลผลไฟล์]
C & D & E & F & G & H --> I[ส่งต่อแบบรวมไปยัง Agent]
I --> J{วิธีการรู้จำไฟล์}
J --> K[LLM File Recognition]
J --> L[System File Recognition]
- หลังจากผู้ใช้ส่งข้อความ ผังขั้นตอนการตอบสนองของ Agent ต่อแต่ละประเภทข้อความเป็นดังนี้:
flowchart TD
A[คำขอของผู้ใช้] --> B[Agent ประมวลผล]
B --> C{ประเภทข้อความที่ส่งออก}
C --> D1[ข้อความ]
D1 -- ต้องการ TTS หรือไม่? --> E{สร้างเสียง TTS หรือไม่?}
E -- ไม่ --> F1[แสดงข้อความโดยตรง]
E -- ใช่ --> F2[เรียกใช้บริการ TTS]
F2 --> G1[ส่งออกเป็นเสียง]
C --> D2[เสียง]
D2 --> G2[ส่งออกเสียงโดยตรง]
C --> D3[รูปภาพ]
D3 --> G3[ส่งออกรูปภาพโดยตรง]
คู่มือการรับเข้า
เสียง

GPTBots รองรับการรับเข้าเสียง โดยผู้ใช้สามารถเลือกใช้ไมโครโฟนหรืออัปโหลดไฟล์เสียงเพื่อป้อนเสียงได้ ระหว่างการรับเข้าเสียง นักพัฒนาสามารถเลือก 3 ตัวเลือกดังนี้:
- เมื่อเลือก "ปิดใช้งาน" ปุ่ม บันทึกเสียง ในกล่องรับข้อความของ Agent จะถูกซ่อนไว้ ผู้ใช้จะไม่สามารถป้อนเสียงได้
- เมื่อเลือก "แปลงเสียงเป็นข้อความ" ปุ่ม บันทึกเสียง จะปรากฏในกล่องรับข้อความของ Agent ผู้ใช้สามารถบันทึกเสียงและระบบจะใช้โมเดล ASR แปลงเสียงเป็นข้อความ
- เมื่อเลือก "ส่งข้อความเสียง" ปุ่ม บันทึกเสียง จะปรากฏในกล่องรับข้อความของ Agent ผู้ใช้สามารถบันทึกเสียงและส่งไฟล์เสียงไปยัง LLM ใน Agent เพื่อประมวลผลและรู้จำโดยตรง
หมายเหตุ: ตัวเลือก "ส่งข้อความเสียง" จะมีให้เลือกหรือไม่ ขึ้นอยู่กับความสามารถในการรู้จำไฟล์ของ LLM ใน Agent สำหรับ FlowAgent จะขึ้นกับความสามารถร่วมกันของ LLM ทุกรุ่นที่ใช้งาน
ไฟล์แนบ

ฟีเจอร์ไฟล์แนบของ GPTBots ช่วยให้ผู้ใช้เลือก แผนการรู้จำไฟล์แนบ และปรับแต่ง ประเภทข้อความ ที่ต้องการรองรับ เพื่อตอบโจทย์แต่ละสถานการณ์ธุรกิจ โดยไฟล์แนบรองรับ 3 แผน ได้แก่ "ปิดใช้งาน", "LLM File Recognition" และ "System File Recognition"
- เมื่อเลือก "ปิดใช้งาน":
- ปุ่ม อัปโหลดไฟล์แนบ ในกล่องรับข้อความของ Agent จะถูกซ่อนไว้ ผู้ใช้จะไม่สามารถอัปโหลดไฟล์แนบได้
- เมื่อเลือก "LLM File Recognition":
- ปุ่ม อัปโหลดไฟล์แนบ จะปรากฏในกล่องรับข้อความของ Agent ผู้ใช้สามารถอัปโหลดไฟล์แนบได้
- ประเภทไฟล์ที่รองรับ: ขึ้นอยู่กับความสามารถในการรู้จำไฟล์ของ LLM ที่ Agent ใช้งาน สำหรับ FlowAgent จะขึ้นกับความสามารถร่วมกันของ LLM ทุกรุ่น
- เมื่ออัปโหลดไฟล์สำเร็จ LLM ใน Agent จะรู้จำและประมวลผลไฟล์โดยตรง
- เมื่อเลือก "System File Recognition":
- Agent จะรู้จำและดึงข้อมูลจากไฟล์แนบที่อัปโหลด แปลงเป็นข้อความ และส่งเป็นคำถามของผู้ใช้ไปยัง LLM ใน Agent
- ประเภทไฟล์ที่รองรับ: ปัจจุบันขึ้นอยู่กับความสามารถของแพลตฟอร์ม GPTBots
- จำนวนไฟล์แนบ:
- ระบบรองรับไฟล์แนบสูงสุด 9 ไฟล์ ค่าเริ่มต้น 1 ไฟล์
วิธีการส่งข้อความ
- โหมดครั้งเดียว (Single-Turn Mode): สามารถส่งข้อความได้ครั้งละ 1 ข้อความ และจะส่งข้อความถัดไปได้หลังจาก AI ตอบกลับเสร็จสิ้น
- โหมดสนทนาแบบขัดจังหวะ (Interruptible Conversation Mode): ในบางกรณีสามารถส่งข้อความพร้อมกันหลายข้อความได้ และ AI จะตอบกลับแบบรวม เหมาะกับพฤติกรรมการสื่อสารของมนุษย์ เพิ่มประสบการณ์การใช้งาน
เมื่อเปิดใช้งานฟีเจอร์สนทนาแบบขัดจังหวะ ข้อความหลายรายการที่ตรงตาม 3 เงื่อนไขนี้จะถูกส่งรวมไปยัง LLM:
AI ยังตอบไม่เสร็จ,ภายใน 5 วินาทีและสูงสุด 5 ข้อความ
คู่มือการส่งออก
การควบคุมการส่งออก

- ภาษาส่งออกของ Agent: สามารถตั้งค่าภาษาส่งออกของ Agent ได้ตามความสามารถของ LLM (การควบคุมภาษาเป็นเพียงแนวทาง ไม่สามารถรับประกันผล 100%)
- สถานะการเรียกใช้เครื่องมือ: รองรับการซ่อน/แสดงสถานะการดำเนินการของการเรียกใช้เครื่องมือ สามารถตั้งค่าได้ตามความต้องการธุรกิจ
- สถานะการเรียกใช้ Workflow: รองรับการซ่อน/แสดงสถานะการดำเนินการของ Workflow สามารถตั้งค่าได้ตามความต้องการธุรกิจ
เสียง

- ปิดใช้งาน: Agent จะไม่รองรับการส่งออกเสียง TTS
- สร้างเสียง TTS: รองรับการเลือกบริการโมเดล TTS และโทนเสียงที่ต้องการ แปลงข้อความเป็นเสียงเพื่อเล่นให้ผู้ใช้ฟัง
หมายเหตุ: การสร้างเสียง TTS ใช้ได้กับ
ข้อความที่ Agent ตอบกลับเท่านั้น ประเภทข้อความอื่นไม่รองรับการสร้างเสียง TTS
