Hình 2 — Bốn thế hệ vận hành. Mỗi thế hệ hấp thụ thế hệ trước; Gen 4 đóng vòng lặp.
2.1 Bốn thế hệ vận hành
| Thế hệ | Kỷ nguyên | Ý tưởng cốt lõi | Giới hạn |
|---|---|---|---|
| Gen 1 · Thủ công + script | 1990–2010 | Con người vận hành; shell script xử lý các bước lặp lại | Mọi thứ chờ đợi một con người; kiến thức bộ lạc |
| Gen 2 · Infrastructure as Code | 2010–2018 | Trạng thái mong muốn khai báo; CI/CD pipeline; quản lý cấu hình | Tự động hóa cung cấp, không phải vận hành; drift và công việc ngày-2 vẫn thủ công |
| Gen 3 · AIOps | 2017–2024 | ML cho phát hiện bất thường, tương quan sự kiện, giảm nhiễu | Phát hiện và tương quan nhưng không quyết định hay hành động; khoảng cách “và sao nào?” |
| Gen 4 · Agentic Operations | 2024– | Agent hướng mục tiêu nhận thức, lý luận, hành động và xác minh | Yêu cầu kiến trúc tin cậy, quản trị và mô hình vận hành mới |
2.2 Tại sao AIOps chưa đủ
AIOps xứng đáng được ghi nhận: tương quan sự kiện và loại bỏ trùng lặp thực sự hoạt động, và tương quan thông minh có thể loại bỏ 80–90% lượng cảnh báo thô. Nhưng danh mục này đã hứa hẹn quá mức. Gartner đã đi xa đến mức đổi tên thị trường “AIOps Platforms” thành “Event Intelligence Solutions” vào năm 2025, dẫn lý do là nhà cung cấp lạm dụng thuật ngữ và sự thất vọng lan rộng trong các lãnh đạo I&O. Công nghệ vẫn tồn tại — nhưng bản thân thị trường đã thừa nhận khoảng cách giữa việc phát hiện sự cố và giải quyết nó. Ba thiếu hụt cụ thể xác định trần giới của AIOps:- Tương quan mà không có nhân quả. Gộp năm mươi cảnh báo thành một sự cố là hữu ích; nhưng vẫn không cho bạn biết nguyên nhân gốc rễ hay phải làm gì.
- Kết quả đầu ra hộp đen. Phần lớn chuyên gia IT báo cáo khó giải thích kết quả ML từ các nền tảng AIOps đã triển khai. Kết luận không có lý luận không xây dựng được niềm tin.
- Không có bàn tay. AIOps cổ điển có thể mở một ticket hoặc kích hoạt webhook, nhưng không thể điều tra, đưa ra giả thuyết, lựa chọn giữa các biện pháp khắc phục, thực thi và xác minh bản sửa lỗi. Con người vẫn là bộ phận thực thi.
2.3 Điều đã thay đổi: reasoning model, công cụ và giao thức
Ba bước mở khóa kỹ thuật trong giai đoạn 2023–2026 đã làm cho thế hệ agentic trở nên khả thi.- Frontier reasoning model. Các mô hình ngôn ngữ lớn đã vượt ngưỡng nơi chúng có thể đọc log, cấu hình và code; đưa ra giả thuyết nhân quả; và lên kế hoạch khắc phục nhiều bước với khả năng phán đoán cấp kỹ sư trong các lĩnh vực có phạm vi rõ ràng.
- Sử dụng công cụ và máy tính. Các model có được khả năng gọi function đáng tin cậy — khả năng chạy lệnh CLI, truy vấn API, thực thi kubectl và Terraform, và đọc dashboard — biến lý luận thành hành động.
- Tiêu chuẩn tương tác. Model Context Protocol (MCP) nổi lên như tiêu chuẩn thực tế để kết nối agent với công cụ và nguồn dữ liệu, đạt hàng chục triệu lượt tải xuống và hệ sinh thái hơn một nghìn server trong vài tháng — khoảnh khắc TCP/IP của tầng agent.
2.4 Tín hiệu từ nhà cung cấp
Các hyperscaler đã bỏ phiếu — bằng các sản phẩm đã ship, khách hàng có tên tuổi và số liệu được công bố. AWS DevOps Agent, được AWS định vị là một trong những “frontier agent” đầu tiên (cùng với Security Agent), đạt general availability vào ngày 31 tháng 3 năm 2026, với United Airlines, T-Mobile và Western Governors University là khách hàng ra mắt; AWS báo cáo khách hàng xem trước thấy MTTR giảm tới 75%, điều tra nhanh hơn 80% và độ chính xác nguyên nhân gốc rễ 94%, và WGU mô tả một cuộc điều tra production được nén từ ước tính hai giờ xuống còn 28 phút. (Tất cả số liệu do nhà cung cấp báo cáo từ các pilot được chọn lọc — chiết khấu phù hợp — nhưng chúng nằm ở đầu lạc quan của phạm vi 40–70% mà các nhà thực hành độc lập báo cáo.) Azure SRE Agent của Microsoft đạt GA vào tháng 3 năm 2026 sau khi Microsoft chạy nó trên estate của chính mình ở quy mô đáng kể: hơn 1.300 agent, hơn 35.000 sự cố được giảm nhẹ, hơn 20.000 giờ kỹ thuật được tiết kiệm. Google đã ship khả năng tương tự một cách thận trọng hơn: các agent chủ động của Gemini Cloud Assist điều tra cảnh báo và bất thường chi phí một cách tự trị trong nền, nhưng theo thiết kế, không thực hiện bất kỳ thay đổi nào đối với môi trường. Ba đám mây, một mẫu hình — tất cả đều ra mắt ở tư thế investigation-first với hành động được bảo vệ bằng quản trị khách hàng, một sự thừa nhận công khai từ các nhà vận hành lớn nhất trên trái đất rằng quyền tự trị phải được giới thiệu theo từng giai đoạn. Thị trường đang di chuyển cùng với họ: danh mục AIOps/AI-SRE được dự báo sẽ tăng trưởng từ khoảng $15 tỷ hiện nay lên $36 tỷ vào năm 2030.BÀI HỌC CHÍNHAIOps làm cho các hệ thống hiển thị và tín hiệu dễ hiểu. Agentic operations làm cho các hệ thống có thể vận hành được. Sự khác biệt là vòng lặp khép kín: nhận thức đến lý luận đến hành động đến xác minh, với con người giám sát thay vì thực thi.