Chuyển đến nội dung chính

Documentation Index

Fetch the complete documentation index at: https://docs-agents.fpt.ai/llms.txt

Use this file to discover all available pages before exploring further.

Khi thêm URL vào kho tri thức, hệ thống cung cấp hai phương thức thu thập dữ liệu:
  • Chỉ crawl các URL đã chỉ định: Hệ thống chỉ thu thập nội dung chính xác từ những URL được người dùng nhập vào.
  • Crawl các trang con (subpages): Hệ thống tự động thu thập cả nội dung trang gốc và các trang con nằm trong cùng miền với URL gốc. Các trang con là các URL mở rộng từ trang gốc, có cấu trúc dạng bổ sung thêm các thành phần phía sau dấu /.
Ví dụ: URL https://fpt.ai/vi/san-pham/fpt-ai-agents/ được coi là trang con của URL https://fpt.ai/vi/san-pham/.

Phương thức “Chỉ crawl các URL đã chỉ định”

Phương thức này cho phép người dùng nhập chính xác các URL cần thu thập nội dung, hệ thống sẽ chỉ xử lý và đồng bộ dữ liệu từ các URL được liệt kê. Bước 1. Truy cập mục Website trong kho tri thức, chọn tệp muốn thêm mới đường dẫn, hoặc thao tác trực tiếp tại danh sách website. Bước 2. Nhấn +Tạo và chọn URL mới.
Image89
Bước 3. Chọn phương thức Chỉ crawl các URL đã chỉ định. Image90 Bước 4. Điền đường dẫn và thông tin cấu hình Nhập URL cần xử lý và nhấn Enter để thêm vào danh sách. Hệ thống cho phép nhập nhiều URL cùng lúc.
Lưu ý: Hệ thống sẽ kiểm tra tự động và hiển thị cảnh báo nếu:
  • URL không đúng định dạng.
  • Trùng với URL đã được xử lý trước đó trong bất kỳ mục tri thức nào.
  • Trùng với URL đã nhập trong cửa sổ tạo mới.
Các cấu hình tùy chọn thêm (không bắt buộc):
  • Chọn thư mục: Gán URL vào một thư mục sẵn có để tổ chức dữ liệu theo chủ đề, giúp dễ dàng phân loại quản lý.
Image91
  • Cấu hình nâng cao: Xác định các trường thông tin nâng cao để hỗ trợ phân tích cấu trúc trang và chia nhỏ nội dung (chunking) chính xác hơn.
STTTên trườngMô tả
1Main title xpathXác định tiêu đề của URL
2Main content xpathXác định nội dung chính của URL
3Ignore HTML tagsLoại các thẻ HTML, cho phép chọn nhiều thẻ: header, footer, nav, img, link, meta, noscript, script, style
4Ignore element xpathsLoại các cấu phần (element) trong HTML, cho phép điền nhiều giá trị
Image92 Bước 5. Nhấn Xử lý để xác nhận thêm URL. Image93 Các URL sau khi xử lý sẽ hiển thị trong danh sách website hoặc trong danh sách đường dẫn của tệp đã chọn.

Phương thức “Crawl các trang con”

Phương thức này cho phép hệ thống tự động mở rộng phạm vi thu thập, bao gồm cả các trang con nằm trong cùng miền với URL gốc, giúp đồng bộ nội dung toàn diện và cập nhật hơn. Bước 1. Truy cập màn hình quản lý Website hoặc thư mục cần thêm mới URL. Nếu muốn thêm URL vào một thư mục sẵn có, hãy truy cập thư mục đó trước khi thao tác bước 2. Bước 2. Nhấn +Tạo và chọn URL mới.
Image94
Bước 3. Chọn phương thức “Crawl các trang con”. Image95 Bước 4. Điền đường dẫn và thông tin cấu hình Nhập đường dẫn cần xử lý và nhấn Enter để thêm vào danh sách (chỉ nhập được 1 URL).
Lưu ý: Hệ thống sẽ tự động kiểm tra và thông báo nếu URL không hợp lệ do không đúng định dạng.
Tùy chỉnh nội dung thu thập: Cho phép giới hạn và lọc nội dung để tối ưu kết quả crawl.
STTTên trường thông tinMô tả
1Độ sâu tối đaQuy định độ sâu khi thu thập trang con (số cấp trang con sẽ được thu thập)
2Số trang tối đa để crawlSố lượng trang tối đa được crawl
3Độ dài nội dung tối thiểuChỉ giữ lại nội dung có độ dài lớn hơn [n] ký tự. Bỏ qua các trang có nội dung ngắn hơn [n] ký tự để tránh thu thập dữ liệu không cần thiết như menu, thông báo, trang lỗi…
Tùy chọn thêm (không bắt buộc):
  • Chọn thư mục: Gán URL vào một thư mục sẵn có để tổ chức dữ liệu theo chủ đề, giúp dễ dàng phân loại quản lý.
  • Cấu hình nâng cao: Tương tự như đối với phần “Chỉ crawl các URL đã chỉ định”, người dùng có thể thiết lập các trường dữ liệu nâng cao để phục vụ việc phân tích và phân mảnh nội dung.
Bước 5. Nhấn Lấy URL để hệ thống bắt đầu thu thập (fetching) các trang con. Trong quá trình thu thập, người dùng có thể nhấn Dừng lấy dữ liệu để tạm dừng thao tác, hệ thống sẽ dừng quá trình thu thập. Bước 6. Chọn các URL cần thêm vào danh sách tri thức từ kết quả đã thu thập. Bước 7. Nhấn Xử lý để hoàn tất. Các URL được xác nhận sẽ hiển thị trong danh sách tri thức.