QuotaCheap Playbook

Agent cost audit: checklist tìm 80% lãng phí trong hệ thống AI

Checklist audit chi phí AI agent: context, model, prompt, memory, tool results, retries, cron jobs, observability, quotas và quick wins giúp tìm phần lãng…

Muốn giảm chi phí AI agent, hãy audit context, model routing, tool loops, retries, cron và logs trước khi đổi model.

Checklist audit chi phí AI agent: context, model, prompt, memory, tool results, retries, cron jobs, observability, quotas và quick wins giúp tìm phần lãng phí lớn nhất.

Agent cost audit: checklist tìm 80% lãng phí trong hệ thống AI Khi AI bill tăng, phản xạ đầu tiên thường là tìm model rẻ hơn.

Nhưng nhiều khi lãng phí lớn nhất không nằm ở giá model.

Nó nằm ở context quá dài, retry vô hạn, tool output thừa, cron chạy không ai đọc và thiếu quota.

Checklist này giúp audit nhanh.

Context audit Hỏi: System prompt có lặp rule không?

History có quá dài không?

Memory có được search/select không?

Retrieved docs có quá nhiều không?

Tool schemas có nhét hết vào mọi request không?

Quick win: tách prompt theo task type và giới hạn context budget.

Model audit Hỏi: Task đơn giản có dùng model mạnh không?

Có routing theo task không?

Fallback có leo lên model đắt quá dễ không?

Có đo quality per model không?

Quick win: route classification/extraction sang model rẻ/nhanh hơn nếu chất lượng đủ.

Tool result audit Hỏi: Tool output có trả raw JSON quá dài không?

Có field không cần thiết không?

Có pagination/limit không?

Có artifact reference không?

Quick win: prune output và chỉ trả summary + fields cần thiết.

Retry audit Hỏi: Max retry là bao nhiêu?

Retry có phân loại lỗi không?

Timeout có gây model retry không?

Có idempotency cho write action không?

Guide topic

Cost & Infra: Cost optimization, routing, quota, caching, and infrastructure guides.

Related path

Agent Cost Optimization: Techniques for reducing AI Agent inference cost with routing, caching, and model mix.

Agent cost audit: checklist tìm 80% lãng phí trong hệ thống AI Khi AI bill tăng, phản xạ đầu tiên thường là tìm model rẻ hơn. Nhưng nhiều khi lãng phí lớn nhất không nằm ở giá model. Nó nằm ở context quá dài, retry vô hạn, tool output thừa, cron chạy không ai đọc và thiếu quota. Checklist này giúp audit nhanh. 1. Context audit Hỏi: System prompt có

lặp rule không? History có quá dài không? Memory có được search/select không? Retrieved docs có quá nhiều không? Tool schemas có nhét hết vào mọi request không? Quick win: tách prompt theo task type và giới hạn context budget. 2. Model audit Hỏi: Task đơn giản có dùng model mạnh không? Có routing theo task không? Fallback có leo lên model đắt quá dễ không? Có đo quality per

model không? Quick win: route classification/extraction sang model rẻ/nhanh hơn nếu chất lượng đủ. 3. Tool result audit Hỏi: Tool output có trả raw JSON quá dài không? Có field không cần thiết không? Có pagination/limit không? Có artifact reference không? Quick win: prune output và chỉ trả summary + fields cần thiết. 4. Retry audit Hỏi: Max retry là bao nhiêu? Retry có phân loại lỗi không? Timeout có

gây model retry không? Có idempotency cho write action không? Quick win: set max attempts và safe skip cho lỗi không recoverable. 5. Cron/background audit Hỏi: Job nào chạy định kỳ? Có skip condition không? Output có ai đọc không? Có quiet hours không? Có budget/job không? Quick win: batch checks, tăng interval, tắt job không tạo value. 6. Observability audit Hỏi: Có log tokens theo request không? Có workflow

id không? Có cost per successful task không? Có dashboard top spend không? Quick win: đưa model calls qua gateway có usage logs như QuotaCheap. 7. Quota audit Hỏi: Có per workspace budget không? Có per workflow cap không? Có alert trước khi hết budget không? Có graceful degradation không? Kết luận 80% lãng phí thường đến từ vài pattern lặp lại. Audit đúng chỗ trước khi đổi model. Cost

optimization tốt là đo, cắt phần thừa, route đúng model và đặt guard trước khi hệ thống tự đốt tiền. Cách áp dụng trong sản phẩm thật Cost optimization không nên bắt đầu bằng việc đổi model hàng loạt. Cách an toàn hơn là thêm visibility trước, rồi tối ưu từng điểm có dữ liệu. Một rollout thực dụng: 1. Đo trước : log model, input tokens, output tokens, latency,

workflow id và user/workspace id. 2. Tìm top waste : xem workflow nào tốn nhất, request nào context dài nhất,