Tối ưu token cho Hermes khi dùng với Telegram

May 21, 2026

Hôm qua chat với Hermes qua Telegram thì dính rate limit OpenAI Codex. Tối mở Claude Code audit lại session và db của Hermes, ra 3 vấn đề:

Tele chat ngốn hơn 65% token nhưng chỉ có vài session. Nguyên nhân: mỗi lần nhắn nó gửi kèm cache cả đoạn hội thoại trước.
Context compression set ngưỡng quá cao, đợi đầy mới nén. Phải kéo xuống.
Có lúc upload file lớn trong session Tele. Các lần chat sau dù không liên quan vẫn bị kéo nguyên history với file vào, bloat luôn.

Xử lý:

Chỉnh lại config nén context, giữ phần cần cho reasoning, tóm tắt phần nhiễu sớm. Restart gateway để config có hiệu lực.
Chuyển Telegram sang chế độ thread, mỗi chủ đề một thread riêng: viết bài, debug Hermes, lịch, automation. Trước gom mọi thứ vào một mạch dài nên context vừa đắt vừa nhiễu. Hướng dẫn: https://www.reddit.com/r/hermesagent/s/DKAaXFJYy4

Trên giao diện Tele sẽ bắt đầu hiển thị dạng Thread, có thể lựa chọn danh sách thread đã chat hoặc thread mới.

Sau tối ưu, Hermes gọn hơn, Telegram cũng sạch hơn.

Quang Yên Substack