Nguyên tắc đầu tiên
Một làn chuyên trách chỉ cải thiện thông lượng khi nó giảm tranh chấp đối với các nút thắt thực sự:- Khóa phiên: mỗi lần chỉ nên có một lượt chạy được thay đổi một phiên nhất định.
- Dung lượng mô hình toàn cục: mọi lượt chạy trò chuyện hiển thị vẫn dùng chung giới hạn của nhà cung cấp.
- Dung lượng công cụ: shell, trình duyệt, mạng và công việc với kho lưu trữ có thể chậm hơn chính lượt mô hình.
- Ngân sách ngữ cảnh: bản ghi dài khiến mọi lượt sau này chậm hơn và kém tập trung hơn.
- Mơ hồ về quyền sở hữu: các agent trùng lặp làm cùng một việc sẽ lãng phí dung lượng.
Lộ trình khuyến nghị
Giai đoạn 1: hợp đồng làn + công việc nặng chạy nền
Cung cấp cho mỗi làn một hợp đồng bằng văn bản trong workspace và system prompt của nó:- Mục đích: công việc mà làn này sở hữu.
- Không phải mục tiêu: công việc nó nên bàn giao thay vì tự thử thực hiện.
- Ngân sách trò chuyện: câu trả lời nhanh ở lại trong trò chuyện; tác vụ dài nên xác nhận ngắn gọn, rồi chạy trong một sub-agent hoặc tác vụ nền.
- Quy tắc bàn giao: khi một làn khác sở hữu công việc, hãy nói công việc đó nên đi đâu và cung cấp một bản tóm tắt bàn giao súc tích.
- Quy tắc rủi ro công cụ: ưu tiên bề mặt công cụ nhỏ nhất có thể hoàn thành công việc.
Giai đoạn 2: kiểm soát ưu tiên và đồng thời
Điều chỉnh hàng đợi và dung lượng mô hình quanh giá trị kinh doanh của từng làn:Giai đoạn 3: điều phối viên / bộ điều khiển lưu lượng
Thêm một mẫu điều phối viên nhỏ khi nhiều làn đã hoạt động:- Theo dõi các tác vụ và chủ sở hữu đang hoạt động của làn.
- Phát hiện yêu cầu trùng lặp giữa các nhóm.
- Định tuyến bản tóm tắt bàn giao giữa các làn.
- Chỉ hiển thị các vấn đề chặn, kết quả đã hoàn thành và quyết định mà con người phải đưa ra.