Chuyển đến nội dung chính
Agentic operations là thế hệ thứ tư của một quá trình tiến hóa bốn mươi năm. Hiểu nguồn gốc giải thích cả sức mạnh lẫn các điều kiện tiên quyết của nó.
Hình 2 — Bốn thế hệ vận hành. Mỗi thế hệ hấp thụ thế hệ trước; Gen 4 đóng vòng lặp.

2.1 Bốn thế hệ vận hành

Thế hệKỷ nguyênÝ tưởng cốt lõiGiới hạn
Gen 1 · Thủ công + script1990–2010Con người vận hành; shell script xử lý các bước lặp lạiMọi thứ chờ đợi một con người; kiến thức bộ lạc
Gen 2 · Infrastructure as Code2010–2018Trạng thái mong muốn khai báo; CI/CD pipeline; quản lý cấu hìnhTự động hóa cung cấp, không phải vận hành; drift và công việc ngày-2 vẫn thủ công
Gen 3 · AIOps2017–2024ML cho phát hiện bất thường, tương quan sự kiện, giảm nhiễuPhát hiện và tương quan nhưng không quyết định hay hành động; khoảng cách “và sao nào?”
Gen 4 · Agentic Operations2024–Agent hướng mục tiêu nhận thức, lý luận, hành động và xác minhYêu cầu kiến trúc tin cậy, quản trị và mô hình vận hành mới
Mỗi thế hệ hấp thụ thế hệ trước thay vì thay thế nó. Agentic operations chạy trên nền IaC (agent biểu đạt thay đổi dưới dạng code), tiêu thụ tín hiệu kiểu AIOps (các sự kiện tương quan là đầu vào của agent) và vẫn tạo ra script (agent viết và thực thi chúng). Điều thay đổi là ai đóng vòng lặp.

2.2 Tại sao AIOps chưa đủ

AIOps xứng đáng được ghi nhận: tương quan sự kiện và loại bỏ trùng lặp thực sự hoạt động, và tương quan thông minh có thể loại bỏ 80–90% lượng cảnh báo thô. Nhưng danh mục này đã hứa hẹn quá mức. Gartner đã đi xa đến mức đổi tên thị trường “AIOps Platforms” thành “Event Intelligence Solutions” vào năm 2025, dẫn lý do là nhà cung cấp lạm dụng thuật ngữ và sự thất vọng lan rộng trong các lãnh đạo I&O. Công nghệ vẫn tồn tại — nhưng bản thân thị trường đã thừa nhận khoảng cách giữa việc phát hiện sự cố và giải quyết nó. Ba thiếu hụt cụ thể xác định trần giới của AIOps:
  1. Tương quan mà không có nhân quả. Gộp năm mươi cảnh báo thành một sự cố là hữu ích; nhưng vẫn không cho bạn biết nguyên nhân gốc rễ hay phải làm gì.
  2. Kết quả đầu ra hộp đen. Phần lớn chuyên gia IT báo cáo khó giải thích kết quả ML từ các nền tảng AIOps đã triển khai. Kết luận không có lý luận không xây dựng được niềm tin.
  3. Không có bàn tay. AIOps cổ điển có thể mở một ticket hoặc kích hoạt webhook, nhưng không thể điều tra, đưa ra giả thuyết, lựa chọn giữa các biện pháp khắc phục, thực thi và xác minh bản sửa lỗi. Con người vẫn là bộ phận thực thi.

2.3 Điều đã thay đổi: reasoning model, công cụ và giao thức

Ba bước mở khóa kỹ thuật trong giai đoạn 2023–2026 đã làm cho thế hệ agentic trở nên khả thi.
  1. Frontier reasoning model. Các mô hình ngôn ngữ lớn đã vượt ngưỡng nơi chúng có thể đọc log, cấu hình và code; đưa ra giả thuyết nhân quả; và lên kế hoạch khắc phục nhiều bước với khả năng phán đoán cấp kỹ sư trong các lĩnh vực có phạm vi rõ ràng.
  2. Sử dụng công cụ và máy tính. Các model có được khả năng gọi function đáng tin cậy — khả năng chạy lệnh CLI, truy vấn API, thực thi kubectl và Terraform, và đọc dashboard — biến lý luận thành hành động.
  3. Tiêu chuẩn tương tác. Model Context Protocol (MCP) nổi lên như tiêu chuẩn thực tế để kết nối agent với công cụ và nguồn dữ liệu, đạt hàng chục triệu lượt tải xuống và hệ sinh thái hơn một nghìn server trong vài tháng — khoảnh khắc TCP/IP của tầng agent.
Khả năng xác minh giải thích nơi agent thành công đầu tiên. Vận hành hạ tầng là một lĩnh vực có thể xác minh cao: một biện pháp khắc phục hoặc khôi phục SLO hoặc không; một Terraform plan hoặc áp dụng gọn hoặc không; một health check đậu hay rớt. Các lĩnh vực có vòng phản hồi rõ ràng chính xác là nơi các hệ thống tự trị có thể được triển khai với sự tự tin — đó là lý do tại sao vận hành, cùng với coding, đang dẫn đầu làn sóng agentic.

2.4 Tín hiệu từ nhà cung cấp

Các hyperscaler đã bỏ phiếu — bằng các sản phẩm đã ship, khách hàng có tên tuổi và số liệu được công bố. AWS DevOps Agent, được AWS định vị là một trong những “frontier agent” đầu tiên (cùng với Security Agent), đạt general availability vào ngày 31 tháng 3 năm 2026, với United Airlines, T-Mobile và Western Governors University là khách hàng ra mắt; AWS báo cáo khách hàng xem trước thấy MTTR giảm tới 75%, điều tra nhanh hơn 80% và độ chính xác nguyên nhân gốc rễ 94%, và WGU mô tả một cuộc điều tra production được nén từ ước tính hai giờ xuống còn 28 phút. (Tất cả số liệu do nhà cung cấp báo cáo từ các pilot được chọn lọc — chiết khấu phù hợp — nhưng chúng nằm ở đầu lạc quan của phạm vi 40–70% mà các nhà thực hành độc lập báo cáo.) Azure SRE Agent của Microsoft đạt GA vào tháng 3 năm 2026 sau khi Microsoft chạy nó trên estate của chính mình ở quy mô đáng kể: hơn 1.300 agent, hơn 35.000 sự cố được giảm nhẹ, hơn 20.000 giờ kỹ thuật được tiết kiệm. Google đã ship khả năng tương tự một cách thận trọng hơn: các agent chủ động của Gemini Cloud Assist điều tra cảnh báo và bất thường chi phí một cách tự trị trong nền, nhưng theo thiết kế, không thực hiện bất kỳ thay đổi nào đối với môi trường. Ba đám mây, một mẫu hình — tất cả đều ra mắt ở tư thế investigation-first với hành động được bảo vệ bằng quản trị khách hàng, một sự thừa nhận công khai từ các nhà vận hành lớn nhất trên trái đất rằng quyền tự trị phải được giới thiệu theo từng giai đoạn. Thị trường đang di chuyển cùng với họ: danh mục AIOps/AI-SRE được dự báo sẽ tăng trưởng từ khoảng $15 tỷ hiện nay lên $36 tỷ vào năm 2030.
BÀI HỌC CHÍNHAIOps làm cho các hệ thống hiển thị và tín hiệu dễ hiểu. Agentic operations làm cho các hệ thống có thể vận hành được. Sự khác biệt là vòng lặp khép kín: nhận thức đến lý luận đến hành động đến xác minh, với con người giám sát thay vì thực thi.