QuotaCheap Playbook

Cách giảm chi phí AI Agent bằng model routing

Playbook thực tế cho developer: cách phân loại tác vụ, route model theo độ khó, đo token usage, latency, request logs và kiểm soát chi phí AI agent khi chạ…

Một playbook thực tế cho developer đang đưa AI agent vào production: phân loại tác vụ, chọn model theo độ khó, theo dõi log và kiểm soát quota trước khi chi phí phình ra.

Bài viết hướng dẫn cách thiết kế chiến lược model routing để giảm chi phí AI agent mà vẫn giữ chất lượng đầu ra ở mức phù hợp. Trọng tâm là phân loại tác vụ, định tuyến theo độ khó, dùng model đắt tiền có chọn lọc, theo dõi request log, token usage, latency và giới hạn vận hành khi chạy production.

AI agent thường tốn tiền không phải vì một request đơn lẻ quá đắt, mà vì agent có xu hướng gọi model nhiều lần: lập kế hoạch, đọc dữ liệu, gọi tool, kiểm tra kết quả, viết phản hồi cuối cùng.

Khi số user tăng, một luồng agent tưởng như đơn giản có thể biến thành hàng nghìn request mỗi ngày.

Model routing là cách giảm chi phí bằng cách chọn model phù hợp cho từng bước, thay vì dùng một model mạnh nhất cho mọi việc.

Mục tiêu không phải là dùng model rẻ nhất mọi lúc, mà là dùng đúng model cho đúng mức độ rủi ro, độ khó và giá trị kinh doanh của tác vụ.

Bắt đầu bằng bản đồ tác vụ của agent Trước khi tối ưu, hãy liệt kê agent của bạn đang làm gì trong một phiên làm việc.

Một agent production thường có các nhóm tác vụ sau: Phân loại intent của user.

Tóm tắt ngữ cảnh hoặc lịch sử hội thoại.

Quyết định có cần gọi tool hay không.

Trích xuất trường dữ liệu có cấu trúc.

Viết câu trả lời tự nhiên cho user.

Kiểm tra lại kết quả trước khi gửi.

Xử lý các trường hợp lỗi hoặc yêu cầu nhạy cảm.

Không phải bước nào cũng cần model mạnh nhất.

Ví dụ, intent classification, format cleanup, rewrite ngắn, hoặc trích xuất JSON đơn giản thường có thể chạy bằng model chi phí thấp hơn.

Ngược lại, các bước lập luận nhiều bước, xử lý yêu cầu mơ hồ, hoặc tổng hợp thông tin quan trọng có thể cần model mạnh hơn.

Chia tác vụ theo tầng độ khó Một cách thực tế là chia routing thành ba tầng: Tầng 1: tác vụ đơn giản, rủi ro thấp Dùng cho phân loại, chuẩn hóa dữ liệu, tóm tắt ngắn, đổi giọng văn, hoặc kiểm tra định dạng.

Các tác vụ này thường có prompt ngắn, output ngắn, và tiêu chí đúng sai khá rõ.

Tầng 2: tác vụ trung bình Dùng cho trả lời có ngữ cảnh, tổng hợp nhiều đoạn thông tin, tạo bản nháp, hoặc quyết định tool call trong luồng agent.

Đây là tầng nên được đo kỹ vì thường chiếm phần lớn traffic.

Tầng 3: tác vụ khó hoặc có rủi ro cao Dùng cho lập luận phức tạp, phân tích code, xử lý yêu cầu production quan trọng, hoặc bước kiểm tra cuối cùng trước khi agent thực hiện hành động có chi phí cao.

Trong QuotaCheap, bạn nên kiểm tra danh sách model hiện có trong Model catalog.

Các model public hiện được nêu trong support knowledge gồm gpt 5.5, gpt 5.4 mini, gpt 5.3 codex, gpt oss 120b, và deepseek v4 flash.

Hãy dùng đúng model slug như trong dashboard hoặc tài liệu.

Đừng route chỉ theo giá; route theo tổng chi phí của bước Chi phí thực tế của một bước không chỉ là giá token.