Tạo mới đường dẫn

Khi thêm URL vào kho tri thức, hệ thống cung cấp hai phương thức thu thập dữ liệu:

Chỉ crawl các URL đã chỉ định: Hệ thống chỉ thu thập nội dung chính xác từ những URL được người dùng nhập vào.
Crawl các trang con (subpages): Hệ thống tự động thu thập cả nội dung trang gốc và các trang con nằm trong cùng miền với URL gốc. Các trang con là các URL mở rộng từ trang gốc, có cấu trúc dạng bổ sung thêm các thành phần phía sau dấu /.

Ví dụ: URL https://fpt.ai/vi/san-pham/fpt-ai-agents/ được coi là trang con của URL https://fpt.ai/vi/san-pham/.

Phương thức “Chỉ crawl các URL đã chỉ định”

Phương thức này cho phép người dùng nhập chính xác các URL cần thu thập nội dung, hệ thống sẽ chỉ xử lý và đồng bộ dữ liệu từ các URL được liệt kê. Bước 1. Truy cập mục Website trong kho tri thức, chọn tệp muốn thêm mới đường dẫn, hoặc thao tác trực tiếp tại danh sách website. Bước 2. Nhấn +Tạo và chọn URL mới.

Bước 3. Chọn phương thức Chỉ crawl các URL đã chỉ định.

Bước 4. Điền đường dẫn và thông tin cấu hình Nhập URL cần xử lý và nhấn Enter để thêm vào danh sách. Hệ thống cho phép nhập nhiều URL cùng lúc.

Lưu ý: Hệ thống sẽ kiểm tra tự động và hiển thị cảnh báo nếu:

URL không đúng định dạng.

Trùng với URL đã được xử lý trước đó trong bất kỳ mục tri thức nào.

Trùng với URL đã nhập trong cửa sổ tạo mới.

Các cấu hình tùy chọn thêm (không bắt buộc):

Chọn thư mục: Gán URL vào một thư mục sẵn có để tổ chức dữ liệu theo chủ đề, giúp dễ dàng phân loại quản lý.

Cấu hình nâng cao: Xác định các trường thông tin nâng cao để hỗ trợ phân tích cấu trúc trang và chia nhỏ nội dung (chunking) chính xác hơn.

STT	Tên trường	Mô tả
1	Main title xpath	Xác định tiêu đề của URL
2	Main content xpath	Xác định nội dung chính của URL
3	Ignore HTML tags	Loại các thẻ HTML, cho phép chọn nhiều thẻ: `header`, `footer`, `nav`, `img`, `link`, `meta`, `noscript`, `script`, `style`
4	Ignore element xpaths	Loại các cấu phần (element) trong HTML, cho phép điền nhiều giá trị

Bước 5. Nhấn Xử lý để xác nhận thêm URL.

Các URL sau khi xử lý sẽ hiển thị trong danh sách website hoặc trong danh sách đường dẫn của tệp đã chọn.

Phương thức “Crawl các trang con”

Phương thức này cho phép hệ thống tự động mở rộng phạm vi thu thập, bao gồm cả các trang con nằm trong cùng miền với URL gốc, giúp đồng bộ nội dung toàn diện và cập nhật hơn. Bước 1. Truy cập màn hình quản lý Website hoặc thư mục cần thêm mới URL. Nếu muốn thêm URL vào một thư mục sẵn có, hãy truy cập thư mục đó trước khi thao tác bước 2. Bước 2. Nhấn +Tạo và chọn URL mới.

Bước 3. Chọn phương thức “Crawl các trang con”.

Bước 4. Điền đường dẫn và thông tin cấu hình Nhập đường dẫn cần xử lý và nhấn Enter để thêm vào danh sách (chỉ nhập được 1 URL).

Lưu ý: Hệ thống sẽ tự động kiểm tra và thông báo nếu URL không hợp lệ do không đúng định dạng.

Tùy chỉnh nội dung thu thập: Cho phép giới hạn và lọc nội dung để tối ưu kết quả crawl.

STT	Tên trường thông tin	Mô tả
1	Độ sâu tối đa	Quy định độ sâu khi thu thập trang con (số cấp trang con sẽ được thu thập)
2	Số trang tối đa để crawl	Số lượng trang tối đa được crawl
3	Độ dài nội dung tối thiểu	Chỉ giữ lại nội dung có độ dài lớn hơn [n] ký tự. Bỏ qua các trang có nội dung ngắn hơn [n] ký tự để tránh thu thập dữ liệu không cần thiết như menu, thông báo, trang lỗi…

Tùy chọn thêm (không bắt buộc):

Chọn thư mục: Gán URL vào một thư mục sẵn có để tổ chức dữ liệu theo chủ đề, giúp dễ dàng phân loại quản lý.
Cấu hình nâng cao: Tương tự như đối với phần “Chỉ crawl các URL đã chỉ định”, người dùng có thể thiết lập các trường dữ liệu nâng cao để phục vụ việc phân tích và phân mảnh nội dung.

Bước 5. Nhấn Lấy URL để hệ thống bắt đầu thu thập (fetching) các trang con. Trong quá trình thu thập, người dùng có thể nhấn Dừng lấy dữ liệu để tạm dừng thao tác, hệ thống sẽ dừng quá trình thu thập. Bước 6. Chọn các URL cần thêm vào danh sách tri thức từ kết quả đã thu thập. Bước 7. Nhấn Xử lý để hoàn tất. Các URL được xác nhận sẽ hiển thị trong danh sách tri thức.

​Phương thức “Chỉ crawl các URL đã chỉ định”

​Phương thức “Crawl các trang con”

Phương thức “Chỉ crawl các URL đã chỉ định”

Phương thức “Crawl các trang con”