Khi thêm URL vào kho tri thức, hệ thống cung cấp hai phương thức thu thập dữ liệu:Documentation Index
Fetch the complete documentation index at: https://docs-agents.fpt.ai/llms.txt
Use this file to discover all available pages before exploring further.
- Chỉ crawl các URL đã chỉ định: Hệ thống chỉ thu thập nội dung chính xác từ những URL được người dùng nhập vào.
- Crawl các trang con (subpages): Hệ thống tự động thu thập cả nội dung trang gốc và các trang con nằm trong cùng miền với URL gốc. Các trang con là các URL mở rộng từ trang gốc, có cấu trúc dạng bổ sung thêm các thành phần phía sau dấu
/.
Ví dụ: URLhttps://fpt.ai/vi/san-pham/fpt-ai-agents/được coi là trang con của URLhttps://fpt.ai/vi/san-pham/.
Phương thức “Chỉ crawl các URL đã chỉ định”
Phương thức này cho phép người dùng nhập chính xác các URL cần thu thập nội dung, hệ thống sẽ chỉ xử lý và đồng bộ dữ liệu từ các URL được liệt kê. Bước 1. Truy cập mục Website trong kho tri thức, chọn tệp muốn thêm mới đường dẫn, hoặc thao tác trực tiếp tại danh sách website. Bước 2. Nhấn +Tạo và chọn URL mới.

Lưu ý: Hệ thống sẽ kiểm tra tự động và hiển thị cảnh báo nếu:Các cấu hình tùy chọn thêm (không bắt buộc):
- URL không đúng định dạng.
- Trùng với URL đã được xử lý trước đó trong bất kỳ mục tri thức nào.
- Trùng với URL đã nhập trong cửa sổ tạo mới.
- Chọn thư mục: Gán URL vào một thư mục sẵn có để tổ chức dữ liệu theo chủ đề, giúp dễ dàng phân loại quản lý.

- Cấu hình nâng cao: Xác định các trường thông tin nâng cao để hỗ trợ phân tích cấu trúc trang và chia nhỏ nội dung (chunking) chính xác hơn.
| STT | Tên trường | Mô tả |
|---|---|---|
| 1 | Main title xpath | Xác định tiêu đề của URL |
| 2 | Main content xpath | Xác định nội dung chính của URL |
| 3 | Ignore HTML tags | Loại các thẻ HTML, cho phép chọn nhiều thẻ: header, footer, nav, img, link, meta, noscript, script, style |
| 4 | Ignore element xpaths | Loại các cấu phần (element) trong HTML, cho phép điền nhiều giá trị |


Phương thức “Crawl các trang con”
Phương thức này cho phép hệ thống tự động mở rộng phạm vi thu thập, bao gồm cả các trang con nằm trong cùng miền với URL gốc, giúp đồng bộ nội dung toàn diện và cập nhật hơn. Bước 1. Truy cập màn hình quản lý Website hoặc thư mục cần thêm mới URL. Nếu muốn thêm URL vào một thư mục sẵn có, hãy truy cập thư mục đó trước khi thao tác bước 2. Bước 2. Nhấn +Tạo và chọn URL mới.

Lưu ý: Hệ thống sẽ tự động kiểm tra và thông báo nếu URL không hợp lệ do không đúng định dạng.Tùy chỉnh nội dung thu thập: Cho phép giới hạn và lọc nội dung để tối ưu kết quả crawl.
| STT | Tên trường thông tin | Mô tả |
|---|---|---|
| 1 | Độ sâu tối đa | Quy định độ sâu khi thu thập trang con (số cấp trang con sẽ được thu thập) |
| 2 | Số trang tối đa để crawl | Số lượng trang tối đa được crawl |
| 3 | Độ dài nội dung tối thiểu | Chỉ giữ lại nội dung có độ dài lớn hơn [n] ký tự. Bỏ qua các trang có nội dung ngắn hơn [n] ký tự để tránh thu thập dữ liệu không cần thiết như menu, thông báo, trang lỗi… |
- Chọn thư mục: Gán URL vào một thư mục sẵn có để tổ chức dữ liệu theo chủ đề, giúp dễ dàng phân loại quản lý.
- Cấu hình nâng cao: Tương tự như đối với phần “Chỉ crawl các URL đã chỉ định”, người dùng có thể thiết lập các trường dữ liệu nâng cao để phục vụ việc phân tích và phân mảnh nội dung.