Chương 1 · Khủng hoảng độ phức tạp trong vận hành

Hạ tầng hiện đại đã vượt quá khả năng nhận thức của con người. Phép tính không còn đúng nữa.

Hình 1 — Độ phức tạp tăng theo tốc độ máy móc; năng lực nhóm tăng tuyến tính. Khoảng cách đó là lý do cho agentic operations.

1.1 Độ phức tạp tăng nhanh, nhân sự thì không

Ba lực lượng nhân lên với nhau đã tạo ra cuộc khủng hoảng này. Microservice phân rã monolith thành hàng trăm service được triển khai độc lập, thất bại độc lập. Đám mây làm cho hạ tầng có thể lập trình và co giãn được — và do đó liên tục thay đổi. Các khối lượng công việc AI bổ sung thêm đội GPU, cơ sở dữ liệu vector, pipeline suy luận và một loại vấn đề chi phí và độ tin cậy mới. Mỗi lực lượng đơn lẻ có thể quản lý được. Khi nhân lên với nhau, chúng tạo ra một không gian trạng thái không có nhóm con người nào có thể quan sát đầy đủ, chưa nói đến kiểm soát. Kết quả hiện ra trong cuộc sống hàng ngày của mọi nhóm vận hành — và trong bảng cân đối kế toán:

Mệt mỏi cảnh báo. Một nhóm vận hành điển hình hiện xử lý 500–1.200 cảnh báo mỗi ngày; phần lớn áp đảo là nhiễu, trùng lặp hoặc triệu chứng hạ nguồn của một nguyên nhân duy nhất. Kỹ sư ngừng đọc. Cảnh báo thực sự quan trọng bị chìm mất.
Công toil điều tra. Điều tra thủ công chiếm phần lớn thời gian sự cố: kỹ sư chuyển qua hàng chục dashboard, grep hàng gigabyte log và phát lại các lần triển khai gần đây trước khi có thể đưa ra giả thuyết. Chẩn đoán, không phải sửa chữa, là nơi mất đi nhiều giờ.
Thời gian ngừng hoạt động tốn kém. Nghiên cứu năm 2026 của Splunk và Oxford Economics trên 2.000 giám đốc điều hành trong Global 2000 đặt thời gian ngừng hoạt động ngoài kế hoạch ở mức $600 tỷ mỗi năm tổng cộng — tăng 50% trong hai năm — với tổ chức lớn trung bình mất $95 triệu doanh thu hàng năm, tiêu tốn khoảng $15.000 mỗi phút ngừng hoạt động và chịu mức giảm giá cổ phiếu 3,4% sau các sự cố lớn.
Thiếu hụt nhân tài. Các khảo sát trong ngành liên tục cho thấy khoảng hai phần ba tổ chức thiếu kỹ sư có kỹ năng vận hành trong kỷ nguyên AI. SRE cấp cao thì đắt đỏ, hiếm hoi và kiệt sức vì các cuộc gọi lúc 3 giờ sáng.
Công toil tăng dù đầu tư vào công cụ. Các khảo sát gần đây cho thấy công toil kỹ thuật tăng ngay cả khi đầu tư vào giám sát tăng vọt. Nhiều công cụ hơn tạo ra nhiều tín hiệu hơn; nhiều tín hiệu hơn tạo ra nhiều việc hơn — trừ khi có thứ gì đó thông minh đứng giữa tín hiệu và con người.

1.2 Tại sao các câu trả lời cũ không còn hiệu quả

Vận hành đã cố gắng tự mở rộng quy mô theo ba cách, và mỗi cách đã đạt đến giới hạn.

Thuê thêm người. Chi phí tăng tuyến tính trước sự phát triển hàm mũ của độ phức tạp. Thị trường lao động không thể cung cấp đủ kỹ sư, và dù có thể, chi phí phối hợp vẫn tăng theo quy mô nhóm.
Viết thêm tự động hóa. Script và runbook tự động hóa những gì đã biết. Chúng vốn dĩ dễ vỡ: mỗi runbook mã hóa một chế độ thất bại của hôm qua, và bản thân danh mục trở thành gánh nặng bảo trì. Các thất bại mới — những thất bại thực sự gây đau — rơi qua kẽ hở.
Mua thêm dashboard. Các nhà cung cấp observability làm cho hệ thống hiển thị, không thể vận hành. Khả năng hiển thị mà không có hành động chỉ đơn thuần chuyển dịch nút thắt cổ chai trở lại con người đang đọc dashboard.

Vấn đề có cấu trúc là cả ba phương pháp đều giữ con người trong lộ trình thực thi. Mọi phát hiện, chẩn đoán và khắc phục cuối cùng đều chờ đợi một con người. Sự chú ý của con người là tài nguyên khan hiếm nhất trong hệ thống, và các câu trả lời cũ đều tiêu tốn nhiều hơn.

1.3 Luận điểm của cuốn sách này

BẰNG CHỨNG TỪ BIG TECHBằng chứng rõ ràng nhất rằng độ phức tạp đã vượt qua ngay cả các nhóm được trang bị tốt nhất đến từ các hyperscaler vận hành trên chính mình. Microsoft hiện chạy hơn 1.300 Azure SRE Agent trên các dịch vụ của chính mình, báo cáo hơn 35.000 sự cố được giảm nhẹ và hơn 20.000 giờ kỹ thuật được tiết kiệm — trong công ty với có thể là đội ngũ vận hành sâu nhất trên trái đất. Kỷ luật SRE của Google đã thể chế hóa nhận thức tương tự từ nhiều năm trước: thực hành được công bố của họ giới hạn công toil ở 50% thời gian của bất kỳ SRE nào, chính xác vì tải vận hành không giới hạn được công nhận là một lỗi kỹ thuật, không phải vấn đề nhân sự.

LUẬN ĐIỂM CỐT LÕIĐộ phức tạp vận hành hiện tăng trưởng ở tốc độ máy móc. Chỉ các hệ thống vận hành ở công suất máy móc — các agent tự trị phát hiện, phân tích, giải quyết và xác nhận — mới có thể theo kịp. Vai trò của con người chuyển từ người thực thi sang người giám sát: đặt ra ý định, phê duyệt thay đổi quan trọng và chịu trách nhiệm về kết quả.

Đây không phải là dự đoán về một tương lai xa, và cũng không phải là điều không có tranh cãi — một tài khoản đáng tin cậy phải giữ cả hai sự thật cùng một lúc. Nghiên cứu tháng 12 năm 2025 của Gartner, Predicts 2026: AI Agents Will Transform IT Infrastructure and Operations, dự đoán AI agent sẽ định hình lại các nhóm I&O, vai trò và mô hình vận hành trong năm năm tới, với các doanh nghiệp liên tục giảm sự tham gia của con người trong vòng lặp khi tự trị và niềm tin của agent phát triển. Đối lập với đó là dự báo của cùng công ty rằng hơn 40% dự án agentic AI sẽ bị hủy bỏ vào năm 2027 — vì chi phí leo thang, giá trị không rõ ràng hoặc kiểm soát rủi ro không đầy đủ. Cả hai dự đoán đều đúng, và chúng mô tả cùng một ngã rẽ. Quỹ đạo công nghệ đã được định sẵn; liệu chương trình của bạn có rơi vào đa số được chuyển đổi hay 40% bị hủy bỏ phụ thuộc vào việc thực thi — kiến trúc, quản trị và kỷ luật đo lường mà cuốn sách này tồn tại để dạy.

​1.1 Độ phức tạp tăng nhanh, nhân sự thì không

​1.2 Tại sao các câu trả lời cũ không còn hiệu quả

​1.3 Luận điểm của cuốn sách này

1.1 Độ phức tạp tăng nhanh, nhân sự thì không

1.2 Tại sao các câu trả lời cũ không còn hiệu quả

1.3 Luận điểm của cuốn sách này