Hình 1 — Độ phức tạp tăng theo tốc độ máy móc; năng lực nhóm tăng tuyến tính. Khoảng cách đó là lý do cho agentic operations.
1.1 Độ phức tạp tăng nhanh, nhân sự thì không
Ba lực lượng nhân lên với nhau đã tạo ra cuộc khủng hoảng này. Microservice phân rã monolith thành hàng trăm service được triển khai độc lập, thất bại độc lập. Đám mây làm cho hạ tầng có thể lập trình và co giãn được — và do đó liên tục thay đổi. Các khối lượng công việc AI bổ sung thêm đội GPU, cơ sở dữ liệu vector, pipeline suy luận và một loại vấn đề chi phí và độ tin cậy mới. Mỗi lực lượng đơn lẻ có thể quản lý được. Khi nhân lên với nhau, chúng tạo ra một không gian trạng thái không có nhóm con người nào có thể quan sát đầy đủ, chưa nói đến kiểm soát. Kết quả hiện ra trong cuộc sống hàng ngày của mọi nhóm vận hành — và trong bảng cân đối kế toán:- Mệt mỏi cảnh báo. Một nhóm vận hành điển hình hiện xử lý 500–1.200 cảnh báo mỗi ngày; phần lớn áp đảo là nhiễu, trùng lặp hoặc triệu chứng hạ nguồn của một nguyên nhân duy nhất. Kỹ sư ngừng đọc. Cảnh báo thực sự quan trọng bị chìm mất.
- Công toil điều tra. Điều tra thủ công chiếm phần lớn thời gian sự cố: kỹ sư chuyển qua hàng chục dashboard, grep hàng gigabyte log và phát lại các lần triển khai gần đây trước khi có thể đưa ra giả thuyết. Chẩn đoán, không phải sửa chữa, là nơi mất đi nhiều giờ.
- Thời gian ngừng hoạt động tốn kém. Nghiên cứu năm 2026 của Splunk và Oxford Economics trên 2.000 giám đốc điều hành trong Global 2000 đặt thời gian ngừng hoạt động ngoài kế hoạch ở mức $600 tỷ mỗi năm tổng cộng — tăng 50% trong hai năm — với tổ chức lớn trung bình mất $95 triệu doanh thu hàng năm, tiêu tốn khoảng $15.000 mỗi phút ngừng hoạt động và chịu mức giảm giá cổ phiếu 3,4% sau các sự cố lớn.
- Thiếu hụt nhân tài. Các khảo sát trong ngành liên tục cho thấy khoảng hai phần ba tổ chức thiếu kỹ sư có kỹ năng vận hành trong kỷ nguyên AI. SRE cấp cao thì đắt đỏ, hiếm hoi và kiệt sức vì các cuộc gọi lúc 3 giờ sáng.
- Công toil tăng dù đầu tư vào công cụ. Các khảo sát gần đây cho thấy công toil kỹ thuật tăng ngay cả khi đầu tư vào giám sát tăng vọt. Nhiều công cụ hơn tạo ra nhiều tín hiệu hơn; nhiều tín hiệu hơn tạo ra nhiều việc hơn — trừ khi có thứ gì đó thông minh đứng giữa tín hiệu và con người.
1.2 Tại sao các câu trả lời cũ không còn hiệu quả
Vận hành đã cố gắng tự mở rộng quy mô theo ba cách, và mỗi cách đã đạt đến giới hạn.- Thuê thêm người. Chi phí tăng tuyến tính trước sự phát triển hàm mũ của độ phức tạp. Thị trường lao động không thể cung cấp đủ kỹ sư, và dù có thể, chi phí phối hợp vẫn tăng theo quy mô nhóm.
- Viết thêm tự động hóa. Script và runbook tự động hóa những gì đã biết. Chúng vốn dĩ dễ vỡ: mỗi runbook mã hóa một chế độ thất bại của hôm qua, và bản thân danh mục trở thành gánh nặng bảo trì. Các thất bại mới — những thất bại thực sự gây đau — rơi qua kẽ hở.
- Mua thêm dashboard. Các nhà cung cấp observability làm cho hệ thống hiển thị, không thể vận hành. Khả năng hiển thị mà không có hành động chỉ đơn thuần chuyển dịch nút thắt cổ chai trở lại con người đang đọc dashboard.
1.3 Luận điểm của cuốn sách này
BẰNG CHỨNG TỪ BIG TECHBằng chứng rõ ràng nhất rằng độ phức tạp đã vượt qua ngay cả các nhóm được trang bị tốt nhất đến từ các hyperscaler vận hành trên chính mình. Microsoft hiện chạy hơn 1.300 Azure SRE Agent trên các dịch vụ của chính mình, báo cáo hơn 35.000 sự cố được giảm nhẹ và hơn 20.000 giờ kỹ thuật được tiết kiệm — trong công ty với có thể là đội ngũ vận hành sâu nhất trên trái đất. Kỷ luật SRE của Google đã thể chế hóa nhận thức tương tự từ nhiều năm trước: thực hành được công bố của họ giới hạn công toil ở 50% thời gian của bất kỳ SRE nào, chính xác vì tải vận hành không giới hạn được công nhận là một lỗi kỹ thuật, không phải vấn đề nhân sự.