QuotaCheap Playbook

Token budget: cách đặt ngân sách context cho mỗi workflow AI agent

Hướng dẫn đặt token budget cho AI agent workflow: system prompt, memory, history, retrieved docs, tool results, output budget, compaction, alerts và budget…

Không có token budget, context sẽ tự phình cho đến khi cost và latency nhắc bạn bằng hóa đơn.

Hướng dẫn đặt token budget cho AI agent workflow: system prompt, memory, history, retrieved docs, tool results, output budget, compaction, alerts và budget theo task type.

Token budget: cách đặt ngân sách context cho mỗi workflow AI agent Agent càng thông minh, context càng dễ dài.

Nhưng context không miễn phí.

Mỗi memory fragment, tool result, retrieved doc và schema đều cộng vào input tokens.

Nếu không đặt ngân sách, workflow sẽ phình dần cho đến khi latency và cost vượt kiểm soát.

Token budget là giới hạn chủ động cho từng loại context trong workflow.

Chia budget theo phần Một request agent thường có: system/developer instructions user message chat history memory retrieved documents tool schemas tool results output Thay vì để tất cả cạnh tranh tự do, hãy đặt budget: Con số cụ thể tùy task, nhưng tư duy là: phần nào cũng phải có trần.

Budget theo task type Không phải task nào cũng cần context như nhau.

Classification: context rất ít.

Rewrite: cần input chính và style guide ngắn.

Support answer: cần retrieved docs.

Coding task: cần files/diff liên quan.

Planning: cần requirements và constraints.

Một lỗi phổ biến là dùng cùng prompt/context assembly cho mọi task.

Memory budget Memory nên được search/select, không nhét toàn bộ.

Durable memory cần ngắn, cụ thể và có liên quan.

Daily logs/raw transcripts không nên vào prompt nếu không cần.

Tool result budget Tool output rất dễ làm vỡ budget.

API response dài nên được: filter field truncate summarize lưu artifact ngoài context chỉ đưa phần cần thiết vào model Output budget Nếu không giới hạn output, model có thể trả lời quá dài.

Với nhiều workflow, output ngắn và có cấu trúc tốt hơn.

Alerts Nên log và alert khi: input tokens vượt budget output tokens bất thường tool result quá dài workflow phải compact nhiều lần cost/request vượt threshold QuotaCheap có thể giúp theo dõi token usage/request và hỗ trợ visibility để bạn phát hiện workflow nào đang vượt ngân sách.

Kết luận Token budget không làm agent kém thông minh.

Nó buộc agent dùng đúng context.

Production agent cần context đủ, không phải context vô hạn.

Cách áp dụng trong sản phẩm thật Cost optimization không nên bắt đầu bằng việc đổi model hàng loạt.