QuotaCheap Playbook

Kiến trúc AI Agent: Tools, Memory, Planning và Execution

Playbook thực tế cho developer xây AI agent production: thiết kế tools, memory, planning, execution loop, observability, quota và kiểm soát chi phí.

Một playbook thực tế cho developer đang xây AI agent chạy production: từ thiết kế công cụ, bộ nhớ, vòng lập kế hoạch đến kiểm soát chi phí và quan sát vận hành.

Bài viết hướng dẫn cách thiết kế AI agent theo hướng production: phân tách vai trò của model, tools, memory, planner và executor; tránh các lỗi phổ biến như tool quá rộng, memory nhiễu, planning không kiểm chứng; đồng thời đề xuất cách theo dõi logs, quota, latency và chi phí khi triển khai thực tế.

AI agent production không chỉ là một prompt dài gọi model rồi chờ kết quả.

Một agent đáng tin cậy cần biết khi nào nên suy luận, khi nào nên gọi công cụ, khi nào cần lưu ngữ cảnh, khi nào phải dừng, và cách để con người kiểm tra được chuyện gì đã xảy ra.

Playbook này tập trung vào bốn khối chính: tools, memory, planning và execution.

Nếu thiết kế đúng, agent sẽ dễ debug hơn, ít hành vi bất ngờ hơn và phù hợp hơn với các workload thật như phân tích dữ liệu, hỗ trợ khách hàng, coding assistant, research workflow hoặc automation nội bộ.

Bắt đầu từ nhiệm vụ, không bắt đầu từ model Trước khi chọn model hoặc framework, hãy mô tả rõ agent cần hoàn thành loại việc gì: Agent nhận input nào?

Output cần ở định dạng nào?

Agent có được phép tự gọi API, sửa dữ liệu, gửi email hoặc tạo ticket không?

Bước nào cần con người xác nhận?

Lỗi nào được phép retry, lỗi nào phải dừng?

Một lỗi phổ biến là giao cho agent mục tiêu quá rộng như “xử lý yêu cầu người dùng”.

Trong production, nên chuyển thành workflow cụ thể hơn: “phân loại ticket, tra cứu tài liệu, đề xuất câu trả lời, sau đó chờ nhân viên duyệt”.

Mục tiêu càng rõ, kiến trúc càng dễ kiểm soát.

Tools: thiết kế công cụ nhỏ, rõ quyền, dễ kiểm tra Tools là cách agent tương tác với thế giới bên ngoài: gọi database, tìm kiếm tài liệu, đọc CRM, tạo đơn hàng, chạy code, gọi API nội bộ.

Tool càng mạnh thì rủi ro càng cao, vì vậy nguyên tắc đầu tiên là giới hạn quyền.

Thay vì tạo một tool chung như call internal api method, url, body , hãy tạo các tool hẹp hơn: search docs query để tìm tài liệu.

get customer plan customer id để đọc thông tin gói.

create support draft ticket id, message để tạo bản nháp, không gửi trực tiếp.

calculate usage cost model, input tokens, output tokens để ước tính chi phí.

Tool tốt nên có schema rõ ràng, mô tả ngắn, input được validate, output có cấu trúc và log được.

Nếu tool trả về văn bản quá dài hoặc không nhất quán, model sẽ khó suy luận tiếp.

Với dữ liệu nhạy cảm, tool nên trả về đúng phần agent cần, không trả toàn bộ record.

Trong production, hãy phân loại tool theo mức rủi ro: Read only: tra cứu tài liệu, đọc logs, lấy trạng thái.

Draft action: tạo bản nháp, đề xuất thay đổi, mô phỏng chi phí.

Write action: cập nhật dữ liệu, gửi email, tạo giao dịch.