3.1 Một định nghĩa làm việc
ĐỊNH NGHĨAAgentic infrastructure operations (AgenticOps) là một mô hình vận hành trong đó các AI agent tự trị thực hiện vòng lặp cốt lõi của công việc vận hành — phát hiện điều kiện, phân tích nguyên nhân, giải quyết vấn đề và xác nhận kết quả — trên hạ tầng đám mây và on-premise, theo chính sách do con người định nghĩa rõ ràng, với con người giám sát trên vòng lặp thay vì thực thi trong vòng lặp.
- Hướng mục tiêu. Nó được cho kết quả (“giữ latency checkout dưới 300ms”; “giữ chi tiêu đám mây hàng tháng trong ngân sách”), không phải hướng dẫn từng bước.
- Nhận thức. Nó liên tục tiêu thụ telemetry — metric, log, trace, sự kiện, trạng thái cấu hình, dữ liệu chi phí — thay vì chờ được nhắc.
- Lý luận. Nó đưa ra và kiểm tra các giả thuyết nhân quả, cân nhắc các biện pháp khắc phục thay thế và giải thích suy nghĩ bằng ngôn ngữ mà kỹ sư có thể kiểm toán.
- Sử dụng công cụ. Nó hành động thông qua các giao diện tương tự mà kỹ sư sử dụng — cloud API, kubectl, Terraform, SQL, CI/CD — với thông tin xác thực có phạm vi, có thể kiểm toán.
- Tự xác minh. Sau khi hành động, nó kiểm tra xem kết quả mong muốn có đạt được không, và leo thang hoặc rollback khi không đạt được.
3.2 Phổ tự trị
Tự trị không phải là nhị phân. Các nền tảng agentic trưởng thành expose tự trị như một dial chính sách, thường theo loại hành động và theo môi trường:| Cấp | Tên | Hành vi agent | Vai trò con người |
|---|---|---|---|
| L0 | Quan sát | Giám sát và báo cáo; không thực hiện hành động | Thực thi mọi thứ |
| L1 | Tư vấn | Điều tra và đề xuất kèm bằng chứng | Quyết định và thực thi |
| L2 | Hành động với phê duyệt | Chuẩn bị biện pháp khắc phục đầy đủ; chờ xác nhận | Phê duyệt/từ chối một cú nhấp |
| L3 | Hành động có thông báo | Thực thi các loại hành động đã được phê duyệt trước; thông báo cho con người | Xem lại sau khi thực hiện |
| L4 | Tự trị trong lĩnh vực | Sở hữu một lĩnh vực có giới hạn từ đầu đến cuối theo chính sách | Đặt ra chính sách; kiểm toán kết quả |
THỰC HÀNH BIG TECH: PHỔ NÀY ĐÃ LÀ THỰC TẾ SẢN PHẨMPhổ L0–L4 không phải là cấu trúc lý thuyết — đó là cách các hyperscaler ship. Các cuộc điều tra chủ động của Gemini Cloud Assist của Google chạy ở L1 theo thiết kế rõ ràng (điều tra tất cả, không thay đổi gì). Hướng dẫn áp dụng của AWS cho DevOps Agent là bắt đầu ở chế độ chỉ đề xuất và đo lường trong nhiều tuần trước khi cấp quyền hành động. Azure SRE Agent expose dial trực tiếp: chế độ Review nơi mọi hành động chờ nhấp “Approve”, và chế độ đặc quyền cho các loại hành động đã được phê duyệt trước, được quản trị theo từng công cụ. Khi cả ba đám mây độc lập hội tụ vào cùng một tư thế tự trị có phân cấp, đó là câu trả lời tập thể của ngành về mức độ tin tưởng mà agent bắt đầu với: không có gì — nó phải tự kiếm lấy.
Hình 3 — Dial tự trị: các loại hành động nâng dần từ L0 đến L4 dựa trên bằng chứng, theo từng môi trường.
3.3 AgenticOps không phải là gì
“Agent washing” hiện phổ biến đến mức Gartner đã đặt tên cho nó: các nhà cung cấp đổi thương hiệu assistant, chatbot và RPA thành “agent” mà không có khả năng agentic thực chất. Vào giữa năm 2025, Gartner ước tính trong số hàng nghìn nhà cung cấp tự nhận là agentic AI, chỉ khoảng 130 là thực. Vì vậy, định nghĩa tiêu cực chính xác là lá chắn tốt nhất của người mua:- Không phải chatbot trên dashboard của bạn. Truy cập hội thoại vào telemetry là một tính năng, không phải mô hình. Nếu con người phải đọc câu trả lời rồi đi làm việc, bạn vẫn ở Gen 3 — dù marketing nói gì đi nữa.
- Không phải vận hành không người giám sát. Không có nhà thực hành uy tín nào ủng hộ việc loại bỏ con người. Mục tiêu là đòn bẩy con người: một kỹ sư giám sát công việc từng cần một nhóm.
- Không phải thay thế cho kỷ luật kỹ thuật. Agent khuếch đại môi trường được cung cấp cho chúng. Observability yếu, IaC không có, và hệ thống không được tài liệu hóa tạo ra agent yếu. Rác vào, tự trị rác ra.
- Không phải một model khổng lồ làm tất cả mọi thứ. Như chương tiếp theo cho thấy, các hệ thống production đang hội tụ về các nhóm chuyên gia được điều phối, không phải siêu model nguyên khối.
3.4 Phạm vi công việc vận hành mà agent có thể đảm nhận ngày nay
| Lĩnh vực | Các tác vụ agent đại diện | Mức tự trị điển hình (2026) |
|---|---|---|
| Ứng phó sự cố | Phân loại, tương quan, phân tích nguyên nhân gốc rễ, khắc phục, báo cáo sau sự cố | L1–L3 |
| Chi phí đám mây (FinOps) | Điều chỉnh kích thước, dọn dẹp tài nguyên nhàn rỗi, lập kế hoạch cam kết, phát hiện bất thường | L2–L4 |
| Vận hành Kubernetes | Sức khỏe pod/node, điều chỉnh tài nguyên, hỗ trợ nâng cấp, lập kế hoạch dung lượng | L2–L3 |
| Vận hành cơ sở dữ liệu | Phân tích truy vấn chậm, tư vấn index, sức khỏe replication, dự báo lưu trữ | L1–L3 |
| Vận hành bảo mật | Phát hiện cấu hình sai, phân loại CVE, vệ sinh IAM, bằng chứng tuân thủ | L1–L2 |
| Thay đổi & phát hành | Phân tích rủi ro trước khi triển khai, giám sát canary, rollback tự động | L2–L3 |
| Infrastructure as Code | Phát hiện drift, tạo module, xem xét plan, vệ sinh state | L1–L3 |