Chuyển đến nội dung chính

Documentation Index

Fetch the complete documentation index at: https://docs-agents.fpt.ai/llms.txt

Use this file to discover all available pages before exploring further.

Kiểm thử tự động bằng việc chọn test case có sẵn

Người dùng có thể thực hiện kiểm thử tự động bằng cách lựa chọn bộ test case đã được hệ thống sinh tự động tại tính năng “Kiểm soát chất lượng — Tạo test case”. Cách 1: Chạy kiểm thử từ menu “Kiểm soát chất lượng — Kiểm thử tự động”
  • Bước 1 — Truy cập: Vào menu “Kiểm soát chất lượng” → tab “Kiểm thử tự động” → nhấn nút “Chạy kiểm thử tự động” → Hệ thống mở Popup, chọn “Chạy test case có sẵn”.
Image341
  • Bước 2 — Chọn bộ kiểm thử:
    • Chọn bộ test case đã sinh tự động. Nếu không có bộ test case nào thì người dùng truy cập vào menu “Kiểm soát chất lượng — Tạo test case” để sinh test case.
    • Sau khi chọn bộ test case, hệ thống tự gợi ý tên của Kết quả kiểm thử theo format Tên bộ test case_TestResult_timestamp. Người dùng có thể đặt lại tên này. Lưu ý, tên kết quả kiểm thử không được trùng với bộ kết quả kiểm thử khác đã chạy.
    • Nhấn “Bước tiếp theo”.
Image342
  • Bước 3 — Cấu hình:
    • Chọn “Mô hình LLM”: Lựa chọn mô hình LLM dùng để đánh giá kết quả kiểm thử. Khuyến khích lựa chọn mô hình Llama-3.3-70B-Instruct (Tích hợp sẵn) để cho kết quả chính xác.
    • Tiêu chí đánh giá: Lựa chọn tiêu chí đánh giá cho bộ test case và ngưỡng cấu hình điểm đạt cho việc đánh giá tổng thể.
Hệ thống hiển thị đánh giá 3 tiêu chí:
  • Tính chính xác: Kiểm tra xem câu trả lời có khớp với kết quả mong đợi không.
  • Độ an toàn: Đánh giá xem câu trả lời có an toàn, không chứa nội dung độc hại, thiên vị hoặc không phù hợp.
  • Độ trôi chảy: Kiểm tra ngữ pháp, từ vựng và tính tự nhiên của câu trả lời.
Người dùng có thể bỏ tối đa 2 tiêu chí nếu không cần bằng cách chuyển trọng số của tiêu chí đó = 0. Đây cũng là cấu hình mặc định hiện tại, hệ thống chỉ đánh giá tiêu chí “Tính chính xác”. Trọng số của các tiêu chí dùng để quyết định kết quả Tổng thể: Khi một test case được đánh giá cho tiêu chí là Đạt, thì hệ thống cộng điểm trọng số cho tiêu chí đó. Tổng trọng số của các tiêu chí được so sánh với “Ngưỡng đạt tổng thể”, nếu lớn hơn ngưỡng thì kết quả Tổng thể là Đạt.
Ví dụ: Với cấu hình tiêu chí như sau:
Image343 Thì kết quả là:
TestcaseKết quả - Tính chính xácKết quả - Độ an toànKết quả - Độ trôi chảyKết quả - Tổng thểGiải thích
1ĐạtĐạtKhông đạtĐạt80% + 10% = 90% ≥ ngưỡng 80%
2Không đạtĐạtĐạtKhông đạt10% + 10% = 20% < ngưỡng 80%
  • Bước 4 — Thực thi & theo dõi: Nhấn “Chạy” để khởi chạy kiểm thử.

Cách 2: Chạy kiểm thử trực tiếp từ test case được sinh tại menu “Kiểm soát chất lượng — Tạo test case”
  • Bước 1 — Truy cập: Vào menu “Kiểm soát chất lượng” → tab “Tạo test case”.
  • Bước 2 — Chọn bộ test: Tại bộ test case đã được sinh, nhấn nút “More” > “Chạy kiểm thử”.
  • Bước 3 — Cấu hình: Cấu hình tương tự như Bước 2 và Bước 3 của Cách 1.
  • Bước 4 — Thực thi & theo dõi: Có thể theo dõi kết quả kiểm thử bằng cách nhấn nút “Đi tới Kiểm thử tự động”.

Kiểm thử tự động bằng việc tải tệp testcase lên

  • Bước 1 — Truy cập: Vào menu “Kiểm soát chất lượng” → tab “Kiểm thử tự động” → nhấn nút “Chạy kiểm thử tự động” → Hệ thống mở Popup, chọn “Tải tệp test case lên”.
  • Bước 2 — Chọn loại test case: Chọn loại test case là:
    • QNA: Kiểm tra khả năng hỏi đáp theo tài liệu.
    • Business Process: Kiểm tra khả năng xử lý quy trình nghiệp vụ tự động là các quy trình đã cấu hình tại Danh sách nghiệp vụ.
  • Bước 3 — Tải lên tệp:
    • Tải tệp mẫu về để điền nội dung test case. Hướng dẫn điền file mẫu: Cấu trúc file: Mỗi dòng trong file đại diện cho một lượt (turn) trong một test case. Đối với test case nhiều lượt (multi-turn):
      • Dòng đầu tiên của test case bắt buộc phải có giá trị ở cột “No.”.
      • Các dòng tiếp theo của cùng test case nên để trống cột “No.”, hệ thống sẽ hiểu chúng thuộc cùng một test case.
      Các trường bắt buộc:
      • No.: Mã định danh duy nhất cho test case.
      • Question: Câu hỏi đầu vào để kiểm thử Agent.
      • Expected answer: Câu trả lời bạn kỳ vọng Agent sẽ trả về. Bạn có thể nhập câu trả lời chính xác, mô tả hành vi mong đợi, hoặc kết hợp cả hai để rõ ràng hơn.
    • Tải tệp test case đã chuẩn bị theo mẫu lên hệ thống. Sau khi tải xong, người dùng có thể xem số lượng test case hợp lệ, hoặc không hợp lệ.
    • Sau khi tải lên tệp, hệ thống tự gợi ý tên của Kết quả kiểm thử theo format Tên bộ test case_TestResult_timestamp. Người dùng có thể đặt lại tên này. Lưu ý, tên kết quả kiểm thử không được trùng với bộ kết quả kiểm thử khác đã chạy.
    • Nhấn “Bước tiếp theo”.
Image344
  • Bước 3 — Cấu hình: Cấu hình mô hình LLM và tiêu chí đánh giá tương tự như hướng dẫn tại Bước 3 — Cách 1 ở trên.
Image345
  • Bước 4 — Thực thi & theo dõi: Nhấn “Chạy” để khởi chạy kiểm thử.

Danh sách kết quả kiểm thử

Sau khi chạy xong, hệ thống hiển thị kết quả kiểm thử tại Danh sách kết quả kiểm thử với trạng thái “Đang xử lý”. Danh sách hiển thị toàn bộ các kết quả kiểm thử đã thực hiện, kèm thông tin trạng thái, thời gian, loại chạy và người thực hiện. Có thể tìm kiếm, lọc theo loại, lọc theo trạng thái hoặc xem chi tiết từng kết quả. Mô tả trường thông tin trong Danh sách kết quả:
TrườngMô tả chi tiết
STTSố thứ tự của các bộ kết quả
Tên kết quả kiểm thửTên của bộ kết quả kiểm thử
Trạng tháiHiển thị trạng thái hiện tại của bộ kết quả: Đang xử lý, Hoàn thành, Đã hủy, Lỗi
NguồnPhân biệt Sinh tự động hoặc Tải lên tệp
Loại test casePhân biệt loại test case là QnA hoặc Quy trình nghiệp vụ
Bắt đầu lúcThời điểm hệ thống bắt đầu chạy kiểm thử
Lần cập nhật cuốiThời gian gần nhất kết quả được cập nhật (sau khi hoàn thành, hủy, hoặc chạy lại)
Cập nhật bởiTài khoản người thực hiện hoặc kích hoạt kiểm thử
Thao tácMenu ba chấm (…) chứa các hành động tương ứng theo trạng thái
Người dùng có thể thực hiện các thao tác tương ứng với từng trạng thái:
Trạng tháiMô tảHành động khả dụng
Đang xử lýHệ thống đang thực thi và đánh giá các test case. Có thể hover vào trạng thái để xem số lượng các case đã chạy thành công và case lỗi trên tổng số test case.- Hủy kiểm thử: Hủy kiểm thử đang chạy. Hệ thống sẽ không lưu kết quả của lần chạy này. - Xem chi tiết: Nhấn xem chi tiết số lượng test case hệ thống đang thực hiện test. - Xem cấu hình: Xem lại cấu hình ban đầu.
Hoàn thànhQuá trình kiểm thử đã kết thúc; có thể xem và xuất kết quả.- Xem chi tiết: Nhấn để xem kết quả chi tiết. - Xem cấu hình: Xem lại cấu hình ban đầu. - Xóa: Xóa toàn bộ kết quả kiểm thử.
Đã hủyNgười dùng hủy kiểm thử giữa chừng.- Chạy lại: Nhấn để chạy lại batch với cấu hình ban đầu. - Xem cấu hình: Xem lại cấu hình ban đầu. - Xóa: Xóa toàn bộ kết quả kiểm thử.
LỗiBatch kiểm thử gặp lỗi hệ thống.- Chạy lại: Nhấn để chạy lại batch với cấu hình ban đầu. - Xem cấu hình: Xem lại cấu hình ban đầu. - Xóa: Xóa toàn bộ kết quả kiểm thử.
Image347

Chi tiết kết quả của một bộ kết quả kiểm thử

Với các bộ kết quả “Hoàn thành”, người dùng nhấn vào Xem chi tiết hoặc nhấn đúp để xem chi tiết. Kết quả chi tiết bao gồm: (1) Phần tổng quan:
  • Hiển thị số lượng test case chạy thành công và lỗi.
  • Hiển thị số lượng và tỷ lệ case đạt/tổng số case thành công của Tổng thể và từng tiêu chí.
Với hội thoại nhiều lượt, hệ thống đánh giá theo từng lượt, sau đó đánh giá chung cho cả hội thoại theo logic:
  • Một case không đạt thì cả hội thoại không đạt.
  • Một case lỗi thì cả hội thoại lỗi, cần chạy lại.
(2) Tìm kiếm và lọc:
  • Tìm kiếm theo câu hỏi và câu trả lời thực tế.
  • Lọc theo loại hội thoại là Một lượt hoặc Nhiều lượt.
  • Lọc theo kết quả kiểm thử: Lọc theo kết quả lỗi hoặc thành công hoặc kết quả đạt/không đạt trong thành công.
(3) Danh sách chi tiết test case:
  • STT: Số thứ tự của test case. Với hội thoại nhiều lượt, hệ thống nhóm lại thành một nhóm và lấy câu hỏi đầu tiên để làm đại diện cho test case đó.
  • Câu hỏi: Câu hỏi cần kiểm thử trong test case.
  • Câu trả lời thực tế: Câu trả lời thực tế của Agent.
  • Loại hội thoại: Một lượt hoặc nhiều lượt.
  • Kết quả kiểm thử: Kết quả đã đánh giá là đạt hay không đạt của từng tiêu chí và tổng thể (tính theo công thức đã cấu hình).
  • Xem chi tiết: Nhấn biểu tượng “con mắt” để xem thêm Chi tiết kết quả kiểm thử của một test case.
(4) Chi tiết kết quả kiểm thử của một test case: Nhấn biểu tượng “con mắt” để xem:
  • Giải thích kết quả: Hệ thống sẽ giải thích lý do tại sao đánh giá câu trả lời đạt/không đạt với từng tiêu chí.
  • Chi tiết Hỏi & Đáp: Nội dung câu hỏi, câu trả lời mong muốn, và câu trả lời thực tế. Có thể so sánh lại để kiểm chứng tính chính xác.
  • Xem chi tiết lịch sử: Nhấn để sang Lịch sử kiểm tra chi tiết hoạt động của Agent cho câu chat này.
Image348
  • Chạy lại lỗi (Retry errors): Một số trường hợp như LLM gặp lỗi trong quá trình đánh giá nên có thể xuất hiện lỗi trên từng test case. Người dùng có thể nhấn nút “Chạy lại lỗi” để chạy lại các case bị lỗi, hệ thống sẽ thực hiện lại quá trình kiểm thử.
Nếu không có test case lỗi thì không hiển thị nút “Chạy lại lỗi”.
(5) Xuất dữ liệu: Người dùng có thể tải kết quả kiểm thử dưới dạng file Excel về máy để kiểm chứng hoặc lưu trữ. Image349