การดึงข้อมูลความรู้

การดึงข้อมูลความรู้

ฐานความรู้ทำหน้าที่เป็นคลังข้อมูลส่วนตัวของ AI Agent โดยโหนด การดึงข้อมูลความรู้ จะช่วยให้ค้นหาข้อมูลจากฐานความรู้ที่กำหนดตามคำถามของผู้ใช้ ดึงข้อมูลที่เกี่ยวข้องมากที่สุด (คะแนนความคล้ายคลึงสูงสุด) และส่งคืนผลลัพธ์ที่ตรงกันในรูปแบบรายการ

การตั้งค่าโหนด

image.png

  • ขอบเขตการดึงข้อมูล: กำหนดขอบเขตของฐานความรู้ที่จะค้นหา สามารถเลือกได้หลายฐานความรู้เป็นขอบเขตการดึงข้อมูล โดยต้องเพิ่มฐานความรู้ที่ต้องการเข้า workflow ก่อน

  • คำค้นหา (Query): คำค้นหาสำหรับดึงข้อมูล ระบบจะค้นหาข้อมูลที่เกี่ยวข้องที่สุดจากฐานความรู้ที่ระบุไว้โดยใช้คำค้นหานี้

  • ความเกี่ยวข้องของความรู้: กำหนดคะแนนความคล้ายคลึงขั้นต่ำที่ข้อมูลต้องมีเพื่อให้แสดงในผลลัพธ์ ข้อมูลที่มีคะแนนต่ำกว่าค่าที่กำหนดจะถูกตัดออก

  • จำนวนข้อมูลที่เรียกคืน (Recall Number): กำหนดจำนวนสูงสุดของชิ้นข้อมูลความรู้ที่จะดึงมา โดยเรียงลำดับตามคะแนนความคล้ายคลึงจากมากไปน้อย

  • น้ำหนักการค้นหา (Search Weight):

    • Semantic Search: ค้นหาแบบเข้าใจความสัมพันธ์ระหว่างคำและประโยค เหมาะสำหรับกรณีที่ต้องการความเข้าใจเชิงความหมาย หรือการค้นหาข้ามภาษา

    • Keyword Search: ค้นหาแบบตรงตัวด้วยคีย์เวิร์ด เหมาะกับข้อมูลที่มีชื่อเฉพาะ คำศัพท์เทคนิค หรือคำย่อ

    • Mixed Search: ผสมผสานข้อดีของการค้นหาแบบเชิงความหมายและคีย์เวิร์ด พร้อมจัดอันดับผลลัพธ์แบบองค์รวม

  • Rerank Model: จัดเรียงลำดับชิ้นข้อมูลที่ค้นพบใหม่ตามความเกี่ยวข้องหรือคุณภาพ เพื่อเพิ่มความแม่นยำในการตอบ เหมาะสำหรับกรณีที่ต้องการความแม่นยำสูง (เช่น งานซัพพอร์ตทางเทคนิค, Q&A ผู้เชี่ยวชาญ)

    • ปิดการจัดเรียงซ้ำ (Disable Rerank): ส่งออกผลการค้นหาแบบเวกเตอร์ตามลำดับคะแนนความเกี่ยวข้อง

    • เปิดการจัดเรียงซ้ำ (Enable Rerank): โมเดล rerank จะประเมินผลลัพธ์ embedding ใหม่ เพื่อจัดลำดับเอกสารที่เกี่ยวข้องกับบริบทมากที่สุด

ผลลัพธ์ของโหนด

image.png

ผลลัพธ์จะอยู่ในรูปแบบอาร์เรย์ชื่อ output_list ซึ่งบรรจุชิ้นข้อมูลความรู้ที่ค้นพบโดยเรียงตามคะแนนความเกี่ยวข้องจากมากไปน้อย แต่ละรายการประกอบด้วย:

  • doc_id: หมายเลขประจำเอกสารต้นทาง

  • doc_name: ชื่อเอกสารต้นทาง

  • chunk_id: หมายเลขประจำชิ้นข้อมูลความรู้

  • chunk_content: เนื้อหาของชิ้นข้อมูลความรู้

  • similarity_score: คะแนนความเกี่ยวข้องระหว่างชิ้นข้อมูลกับคำค้นหา