Chương 2 · Từ Tự động hóa đến Tự trị

Agentic operations là thế hệ thứ tư của một quá trình tiến hóa bốn mươi năm. Hiểu nguồn gốc giải thích cả sức mạnh lẫn các điều kiện tiên quyết của nó.

Hình 2 — Bốn thế hệ vận hành. Mỗi thế hệ hấp thụ thế hệ trước; Gen 4 đóng vòng lặp.

2.1 Bốn thế hệ vận hành

Thế hệ	Kỷ nguyên	Ý tưởng cốt lõi	Giới hạn
Gen 1 · Thủ công + script	1990–2010	Con người vận hành; shell script xử lý các bước lặp lại	Mọi thứ chờ đợi một con người; kiến thức bộ lạc
Gen 2 · Infrastructure as Code	2010–2018	Trạng thái mong muốn khai báo; CI/CD pipeline; quản lý cấu hình	Tự động hóa cung cấp, không phải vận hành; drift và công việc ngày-2 vẫn thủ công
Gen 3 · AIOps	2017–2024	ML cho phát hiện bất thường, tương quan sự kiện, giảm nhiễu	Phát hiện và tương quan nhưng không quyết định hay hành động; khoảng cách “và sao nào?”
Gen 4 · Agentic Operations	2024–	Agent hướng mục tiêu nhận thức, lý luận, hành động và xác minh	Yêu cầu kiến trúc tin cậy, quản trị và mô hình vận hành mới

Mỗi thế hệ hấp thụ thế hệ trước thay vì thay thế nó. Agentic operations chạy trên nền IaC (agent biểu đạt thay đổi dưới dạng code), tiêu thụ tín hiệu kiểu AIOps (các sự kiện tương quan là đầu vào của agent) và vẫn tạo ra script (agent viết và thực thi chúng). Điều thay đổi là ai đóng vòng lặp.

2.2 Tại sao AIOps chưa đủ

AIOps xứng đáng được ghi nhận: tương quan sự kiện và loại bỏ trùng lặp thực sự hoạt động, và tương quan thông minh có thể loại bỏ 80–90% lượng cảnh báo thô. Nhưng danh mục này đã hứa hẹn quá mức. Gartner đã đi xa đến mức đổi tên thị trường “AIOps Platforms” thành “Event Intelligence Solutions” vào năm 2025, dẫn lý do là nhà cung cấp lạm dụng thuật ngữ và sự thất vọng lan rộng trong các lãnh đạo I&O. Công nghệ vẫn tồn tại — nhưng bản thân thị trường đã thừa nhận khoảng cách giữa việc phát hiện sự cố và giải quyết nó. Ba thiếu hụt cụ thể xác định trần giới của AIOps:

Tương quan mà không có nhân quả. Gộp năm mươi cảnh báo thành một sự cố là hữu ích; nhưng vẫn không cho bạn biết nguyên nhân gốc rễ hay phải làm gì.
Kết quả đầu ra hộp đen. Phần lớn chuyên gia IT báo cáo khó giải thích kết quả ML từ các nền tảng AIOps đã triển khai. Kết luận không có lý luận không xây dựng được niềm tin.
Không có bàn tay. AIOps cổ điển có thể mở một ticket hoặc kích hoạt webhook, nhưng không thể điều tra, đưa ra giả thuyết, lựa chọn giữa các biện pháp khắc phục, thực thi và xác minh bản sửa lỗi. Con người vẫn là bộ phận thực thi.

2.3 Điều đã thay đổi: reasoning model, công cụ và giao thức

Ba bước mở khóa kỹ thuật trong giai đoạn 2023–2026 đã làm cho thế hệ agentic trở nên khả thi.

Frontier reasoning model. Các mô hình ngôn ngữ lớn đã vượt ngưỡng nơi chúng có thể đọc log, cấu hình và code; đưa ra giả thuyết nhân quả; và lên kế hoạch khắc phục nhiều bước với khả năng phán đoán cấp kỹ sư trong các lĩnh vực có phạm vi rõ ràng.
Sử dụng công cụ và máy tính. Các model có được khả năng gọi function đáng tin cậy — khả năng chạy lệnh CLI, truy vấn API, thực thi kubectl và Terraform, và đọc dashboard — biến lý luận thành hành động.
Tiêu chuẩn tương tác. Model Context Protocol (MCP) nổi lên như tiêu chuẩn thực tế để kết nối agent với công cụ và nguồn dữ liệu, đạt hàng chục triệu lượt tải xuống và hệ sinh thái hơn một nghìn server trong vài tháng — khoảnh khắc TCP/IP của tầng agent.

Khả năng xác minh giải thích nơi agent thành công đầu tiên. Vận hành hạ tầng là một lĩnh vực có thể xác minh cao: một biện pháp khắc phục hoặc khôi phục SLO hoặc không; một Terraform plan hoặc áp dụng gọn hoặc không; một health check đậu hay rớt. Các lĩnh vực có vòng phản hồi rõ ràng chính xác là nơi các hệ thống tự trị có thể được triển khai với sự tự tin — đó là lý do tại sao vận hành, cùng với coding, đang dẫn đầu làn sóng agentic.

2.4 Tín hiệu từ nhà cung cấp

Các hyperscaler đã bỏ phiếu — bằng các sản phẩm đã ship, khách hàng có tên tuổi và số liệu được công bố. AWS DevOps Agent, được AWS định vị là một trong những “frontier agent” đầu tiên (cùng với Security Agent), đạt general availability vào ngày 31 tháng 3 năm 2026, với United Airlines, T-Mobile và Western Governors University là khách hàng ra mắt; AWS báo cáo khách hàng xem trước thấy MTTR giảm tới 75%, điều tra nhanh hơn 80% và độ chính xác nguyên nhân gốc rễ 94%, và WGU mô tả một cuộc điều tra production được nén từ ước tính hai giờ xuống còn 28 phút. (Tất cả số liệu do nhà cung cấp báo cáo từ các pilot được chọn lọc — chiết khấu phù hợp — nhưng chúng nằm ở đầu lạc quan của phạm vi 40–70% mà các nhà thực hành độc lập báo cáo.) Azure SRE Agent của Microsoft đạt GA vào tháng 3 năm 2026 sau khi Microsoft chạy nó trên estate của chính mình ở quy mô đáng kể: hơn 1.300 agent, hơn 35.000 sự cố được giảm nhẹ, hơn 20.000 giờ kỹ thuật được tiết kiệm. Google đã ship khả năng tương tự một cách thận trọng hơn: các agent chủ động của Gemini Cloud Assist điều tra cảnh báo và bất thường chi phí một cách tự trị trong nền, nhưng theo thiết kế, không thực hiện bất kỳ thay đổi nào đối với môi trường. Ba đám mây, một mẫu hình — tất cả đều ra mắt ở tư thế investigation-first với hành động được bảo vệ bằng quản trị khách hàng, một sự thừa nhận công khai từ các nhà vận hành lớn nhất trên trái đất rằng quyền tự trị phải được giới thiệu theo từng giai đoạn. Thị trường đang di chuyển cùng với họ: danh mục AIOps/AI-SRE được dự báo sẽ tăng trưởng từ khoảng $15 tỷ hiện nay lên $36 tỷ vào năm 2030.

BÀI HỌC CHÍNHAIOps làm cho các hệ thống hiển thị và tín hiệu dễ hiểu. Agentic operations làm cho các hệ thống có thể vận hành được. Sự khác biệt là vòng lặp khép kín: nhận thức đến lý luận đến hành động đến xác minh, với con người giám sát thay vì thực thi.

​2.1 Bốn thế hệ vận hành

​2.2 Tại sao AIOps chưa đủ

​2.3 Điều đã thay đổi: reasoning model, công cụ và giao thức

​2.4 Tín hiệu từ nhà cung cấp

2.1 Bốn thế hệ vận hành

2.2 Tại sao AIOps chưa đủ

2.3 Điều đã thay đổi: reasoning model, công cụ và giao thức

2.4 Tín hiệu từ nhà cung cấp