QuotaCheap Playbook

Tool result pruning: đừng nhét nguyên log/API response vào context

Hướng dẫn cắt gọn tool results cho AI agent: field selection, truncation, artifact references, summarization, redaction, debug mode và cách giảm context co…

Tool output dài là một trong những thủ phạm âm thầm làm AI agent chậm và đắt.

Hướng dẫn cắt gọn tool results cho AI agent: field selection, truncation, artifact references, summarization, redaction, debug mode và cách giảm context cost mà vẫn giữ đủ thông tin.

Tool result pruning: đừng nhét nguyên log/API response vào context Một agent gọi tool để lấy dữ liệu.

Tool trả về 500 dòng JSON.

Runtime nhét nguyên 500 dòng đó vào context.

Model trả lời được, nhưng request trở nên chậm, đắt và đôi khi leak dữ liệu không cần thiết.

Tool result pruning là việc chỉ đưa vào model phần kết quả thật sự cần cho bước tiếp theo.

Vấn đề của raw output Raw API response thường chứa: field không liên quan metadata dài nested object debug info PII/secrets list quá nhiều item Model không cần tất cả.

Nhưng token meter vẫn tính tất cả.

Pattern 1: chọn field Thay vì trả nguyên object, tool nên trả field tối thiểu: Pattern 2: giới hạn số item List tool nên có limit mặc định.

Nếu cần thêm, agent phải gọi tiếp có chủ đích.

default 10 max 50 pagination token sort rõ ràng Pattern 3: artifact reference Nếu output dài cần giữ để debug, lưu ngoài context và trả reference: Pattern 4: summarize trước khi đưa vào model Với logs dài, dùng rule based extraction hoặc model nhỏ để summarize trước.

Nhưng nhớ: summarization cũng có cost, nên chỉ dùng khi raw output thật sự dài.

Pattern 5: debug mode riêng Normal mode nên ngắn.

Debug mode có thể giữ nhiều details hơn.

Đừng để mọi request production chạy như debug.

Redaction Pruning không chỉ để giảm cost.

Nó còn giảm rủi ro leak: tokens emails/phones nếu không cần internal URLs payment info raw customer messages dài QuotaCheap angle Nếu bạn log token usage qua QuotaCheap, các workflow có tool output dài sẽ lộ rõ qua input tokens cao bất thường.

Đó là tín hiệu để prune result hoặc tách artifact khỏi context.

Kết luận Tool result pruning là optimization đơn giản nhưng hiệu quả.

Agent không cần ăn cả kho dữ liệu để trả lời một câu.

Cho nó phần đúng, ngắn và sạch.

Cách áp dụng trong sản phẩm thật Cost optimization không nên bắt đầu bằng việc đổi model hàng loạt.

Cách an toàn hơn là thêm visibility trước, rồi tối ưu từng điểm có dữ liệu.

Một rollout thực dụng: 1.

Đo trước : log model, input tokens, output tokens, latency, workflow id và user/workspace id.