Chuyển đến nội dung chính

Documentation Index

Fetch the complete documentation index at: https://docs-agents.fpt.ai/llms.txt

Use this file to discover all available pages before exploring further.

3.2.4.3.6 Khối Truy xuất tri thức
Mục đích sử dụng: Dùng để tìm và lấy thông tin liên quan từ các nguồn tài liệu dựa trên biến đầu vào được lựa chọn.
Một tài liệu được tải lên, hệ thống xử lý và chia thành các đoạn văn bản nhỏ gọi là chunk. Chunk có 2 loại: chunk chachunk con. Chunk cha sẽ bao gồm nhiều chunk con gộp với nhau. Trong tài liệu này, nếu chỉ đề cập đến chunk mà không nói gì thêm thì sẽ hiểu là chunk con.

Cài đặt Truy xuất Hệ thống sẽ so sánh điểm tương đồng về nội dung giữa biến truy vấn và nội dung của các đoạn văn (chunk) trong tài liệu để quyết định trích xuất hay không.
STTTên tham sốÝ nghĩaLưu ý
1Điểm số theo trọng sốCác thông tin được truy xuất sẽ dựa vào ngữ nghĩa hay từ khóa nhiều hơn
2Top KSố lượng chunk được truy vấn
3Ngưỡng điểm (top K)Ngưỡng giá trị điểm tương đồng giữa biến truy vấn và chunk khi trích xuất. Chỉ lấy những chunk có điểm lớn hơn ngưỡng nàyThực tế ít sử dụng vì khi lọc có thể thiếu chunk liên quan
4Cài đặt sắp xếp lạiSau khi đã trích xuất được chunk, sắp xếp các chunk theo điểm tương đồng từ cao xuống thấp
5Top K (sắp xếp lại)Số lượng chunk được chọn sắp xếpTop K sắp xếp lại sẽ nhỏ hơn hoặc bằng Top K truy vấn
6Ngưỡng điểm (sắp xếp lại)Ngưỡng giá trị điểm tương đồng giữa biến truy vấn và chunk khi sắp xếp. Chỉ lấy những chunk có điểm lớn hơn ngưỡng này
7Gộp cha-conHệ thống sẽ trích xuất chunk cha thay vì chunk con
8Ngưỡng cha-conNgưỡng giá trị phần trăm số lượng ký tự (character) tương đồng của chunk con so với chunk cha. Nếu ngưỡng cha-con đều lớn hơn ngưỡng cài đặt, sẽ trích xuất chunk cha thay vì chunk con để LLM hiểu ngữ cảnh hơn
Image172
Nguồn truy xuất (Source) Xác định nguồn dữ liệu mà Agent sẽ tìm kiếm thông tin. Người dùng có thể chọn:
  • Agent Knowledge: Kho tri thức đã được kết nối với Agent trong mục Kho tri thức.
  • My Storage: Kho tài liệu cá nhân của người dùng trên MyAgent.

Bộ lọc tri thức (Knowledge filter) Tùy chọn này chỉ khả dụng khi Nguồn truy xuất là Agent Knowledge. Người dùng có thể giới hạn phạm vi truy xuất bằng cách chọn: Thư mục, Tệp, URL, Câu hỏi thường gặp (FAQ). Agent sẽ chỉ tìm thông tin trong các mục đã chọn, giúp kết quả chính xác hơn.
Bộ lọc tệp (File filter) Tùy chọn này áp dụng khi Nguồn truy xuất là My Storage. Người dùng có thể lọc dữ liệu dựa trên biến được chọn.
Ví dụ: Khi bật File Filter và chọn biến mentioned_files, Agent sẽ chỉ truy xuất các tệp mà người dùng đề cập trực tiếp (mention) trong câu hỏi khi chat trên MyAgent.

Lọc Metadata (Metadata filter) Cho phép lọc dữ liệu dựa trên metadata của tài liệu, bao gồm: Tên tệp (file_name), Kiểu dữ liệu của chunk (chunk_type), URL gốc (original_url). Hệ thống hỗ trợ các điều kiện so sánh (là, chứa, bắt đầu với, …) với một giá trị cố định hoặc một biến.
Hướng dẫn sử dụng Nguồn truy xuất (Source): Chọn nguồn truy xuất là Agent Knowledge hoặc My Storage dựa theo nhu cầu muốn truy vấn tri thức từ đâu. Image173 Bộ lọc tri thức (Knowledge filter): Khi ở chế độ mặc định, hệ thống sẽ truy xuất tất cả tài liệu từ các nguồn. Để lọc theo nhu cầu nghiệp vụ, chọn biểu tượng Lọc. Image174 Có 4 nguồn tri thức: Tài liệu, Trang Web, SharePoint, FAQ. Với mỗi nguồn tri thức sẽ có 3 lựa chọn:
  • Bao gồm tất cả các mục trong nguồn này (Include all)
  • Loại trừ tất cả các mục trong nguồn này (Exclude all)
  • Chọn mục cụ thể: Tùy chọn dữ liệu theo mong muốn bằng cách tick vào từng thư mục, tệp, URL, FAQ. Các dữ liệu được chọn sẽ hiển thị tại Mục đã chọn.
Image175 Ấn Lưu để lưu lại chọn lựa, kết quả lọc sẽ hiển thị tại chi tiết khối Truy xuất tri thức. Image176 Bộ lọc tệp (File filter): Bật tùy chọn bộ lọc tệp và chọn biến sys.mentioned_files. Khi đó, Agent sẽ chỉ truy xuất các tệp mà người dùng đề cập trực tiếp (mention) trong câu hỏi khi chat trên MyAgent. Image177 Lọc Metadata (Metadata filter): Có 2 lựa chọn:
  • Tắt: Không bật lọc theo metadata.
  • Thủ công: Thêm điều kiện lọc theo metadata.
Image178 Nếu chọn Thủ công, cần thêm điều kiện dựa trên các metadata sau:
  • file_name — Tên tệp
  • chunk_type — Kiểu dữ liệu của chunk. Hiện tại có 2 kiểu: "plaindocument""chunk"
  • original_url — URL gốc
Image179 Với mỗi metadata, thêm các điều kiện để hệ thống xử lý:
  • Điều kiện so sánh: Là, Không là, Chứa, Không chứa, Bắt đầu với, Kết thúc với.
  • Đối tượng so sánh:
    • Constant: So sánh với một giá trị cố định.
    • Variable: So sánh với một biến.
Image180 Image181 Với metadata issue_date, chọn điều kiện lọc và giá trị so sánh mong muốn. Có 4 điều kiện lọc:
  • Nhỏ hơn: Lọc các tài liệu có issue_date nhỏ hơn giá trị được chọn. Người dùng chọn giá trị trong phần “Chọn thời gian”, chính xác đến phút.
Image182
  • Lớn hơn: Lọc các tài liệu có issue_date lớn hơn giá trị được chọn. Người dùng chọn giá trị trong phần “Chọn thời gian”, chính xác đến phút.
Image183
  • Tồn tại: Lọc các tài liệu có lưu issue_date trong mục metadata.
Image184
  • Không tồn tại: Lọc các tài liệu không lưu issue_date trong mục metadata.
Image185