QuotaCheap Playbook

10 lỗi production khiến AI Agent dễ gãy

Playbook tiếng Việt cho developer: 10 lỗi phổ biến khi đưa AI agent lên production, từ state, tool schema, retry, observability đến chi phí và rollout.

Một playbook thực dụng cho developer đang đưa AI agent từ demo lên môi trường thật.

AI agent thường chạy ổn trong demo nhưng gãy ở production vì thiếu kiểm soát trạng thái, chi phí, giới hạn, log, retry, bảo mật và đánh giá chất lượng. Bài viết liệt kê 10 lỗi phổ biến cùng cách phòng tránh thực tế.

AI agent trong demo thường rất thuyết phục: nhận yêu cầu, gọi tool, suy luận vài bước, trả lời có vẻ thông minh.

Nhưng production là một môi trường khác hẳn.

Người dùng nhập dữ liệu lạ, API chậm, quota hết, model đổi hành vi, prompt dài quá mức, tool trả lỗi, và chi phí tăng nhanh nếu không có kiểm soát.

Dưới đây là 10 lỗi phổ biến khiến AI agent dễ gãy khi chạy thật, kèm cách xử lý thực dụng cho developer.

Xem agent như một hàm stateless đơn giản Nhiều team bắt đầu bằng cách gọi model như gọi một function: input vào, output ra.

Cách này ổn cho chatbot đơn giản, nhưng agent production thường cần trạng thái: nhiệm vụ đang ở bước nào, tool nào đã gọi, dữ liệu nào đã xác nhận, thao tác nào đang chờ người dùng duyệt.

Nếu không thiết kế state rõ ràng, agent dễ lặp hành động, gọi tool trùng, hoặc trả lời dựa trên context cũ.

Cách làm tốt hơn: Tách conversation state, task state và tool execution state.

Lưu trạng thái quan trọng ở server, không chỉ nhét toàn bộ vào prompt.

Dùng idempotency key cho các hành động có tác động thật như tạo đơn, gửi email, cập nhật dữ liệu.

Ghi lại bước cuối cùng thành công để có thể resume sau lỗi.

Cho agent gọi tool mà không có hợp đồng dữ liệu chặt Tool là nơi agent bước từ lời nói sang hành động.

Nếu schema lỏng, mô tả mơ hồ, hoặc thiếu validate, agent có thể gửi tham số sai, thiếu field, hoặc gọi nhầm tool.

Đừng chỉ viết mô tả kiểu “use this tool to search users”.

Hãy định nghĩa rõ input, output, lỗi có thể xảy ra, và điều kiện sử dụng.

Checklist: Dùng JSON schema hoặc kiểu dữ liệu rõ ràng cho tool arguments.

Validate toàn bộ input phía server, kể cả khi model đã “có vẻ đúng”.

Trả lỗi có cấu trúc để agent biết nên sửa tham số, hỏi lại người dùng, hay dừng.

Không cho tool nguy hiểm chạy tự động nếu thiếu bước xác nhận.

Không phân loại hành động theo mức rủi ro Một lỗi nghiêm trọng là đối xử mọi tool call như nhau.

Tìm kiếm dữ liệu, đọc tài liệu, gửi email, xoá bản ghi, tạo payment, hay thay đổi quyền truy cập có mức rủi ro rất khác nhau.

Agent production cần policy theo cấp độ: Low risk: đọc dữ liệu công khai, tìm kiếm, tóm tắt.

Medium risk: tạo draft, chuẩn bị nội dung, đề xuất thay đổi.

High risk: gửi thông tin ra ngoài, cập nhật dữ liệu, thực hiện giao dịch.